Enhancing Psychological Assessments with Open-Ended Questionnaires and Large Language Models: An ASD Case Study.

運用開放式問卷與大型語言模型提升心理評估：以自閉症光譜障礙（ASD）為例

<think> 嗯，我需要分析一下这个PubMed的研究。标题是“利用开放式问卷和大型语言模型来增强心理评估：一个ASD案例研究”。看起来他们是想用AI来分析家长填写的开放式问卷，以帮助诊断自闭症谱系障碍（ASD）。首先，研究目的应该是评估大型语言模型在分析开放式问卷上的效果，以及它们在ASD分类中的应用。他们的假设可能是，LLMs能够准确分类这些问卷，从而辅助心理评估。方法方面，他们用了51份家长的记录，26个正常发展，25个ASD。然后用不同的训练策略，比如微调、输入表示和特异性来训练模型。结果显示，最好的方法达到了84%的准确率和1.0的ROC-AUC，这看起来不错。不过，这些结果可能在更大的数据集上是否同样有效呢？样本量不算大，可能会影响结果的普适性。数据解释部分，他们的结果支持了假设，证明了LLMs在分类上的有效性。不过，零样本评估的结果也很好，这可能意味着模型在没有特定训练数据的情况下也能表现良好。但家长的回答可能有偏差，比如教育背景或者文化差异，这些都可能影响结果。局限性的话，样本量小是个大问题，可能缺乏多样性。另外，模型的可解释性也不太好，特别是像GPT-4这种封闭模型，很难解释为什么做出这样的分类。这在临床应用中可能是个问题，因为医生和家长可能需要理解为什么会得出这样的结论。关于未来研究，可能需要更大的样本量，来自不同背景的数据，这样模型会更可靠。另外，提高模型的可解释性也很重要，可能需要开发新的方法来解释LLMs的决策过程。其他观点的话，开放式问卷虽然信息丰富，但分析起来确实困难。LLMs在这里提供了一种高效的方法，但可能需要结合其他评估工具来提高准确性。此外，不同的问题可能对分类的影响不同，可能需要进一步研究哪些问题最有帮助。总的来说，这项研究展示了LLMs在心理评估中的潜力，但也需要克服样本量小和可解释性不足的问题。未来可能会看到更多这类应用，但需要更多的验证和改进。 </think> ### 研究目的與假設該研究主要探討了開放式問卷與大型語言模型（LLMs）在心理評估中的應用，特別是針對自閉症譜系障碍（ASD）的分類。研究假設是，通過使用預訓練的大型語言模型來分析家長填寫的開放式問卷，能夠有效地對ASD進行分類，並且這種方法具有可擴展性和成本效益。 ### 方法與設計研究採用了以下方法： 1. **數據來源**：使用了51份家長的開放式問卷記錄，其中26份來自典型發展兒童，25份來自ASD兒童。 2. **模型訓練**：探討了多種訓練策略，包括微調、輸入表示和特異性。 3. **模型評估**：使用OpenAI嵌入模型和GPT-4o進行評估，，並通過投票系統結合預測結果。 4. **解釋性方法**：探討了模型的解釋性，包括專有LLMs和本地部署模型的解釋性。研究方法合理，優點在於利用LLMs處理開放式問卷的豐富資訊，潛在缺陷在於樣本量較小，可能影響結果的普適性。 ### 數據解釋與結果研究結果顯示： 1. 最佳方法達到了84%的主體級別準確率和1.0的ROC-AUC。 2. GPT-4o在零樣本評估中表現相當，顯示了LLMs在分類任務中的潛力。 3. 本地部署模型在解釋性上優於專有模型，但專有模型在性能上更佳。這些結果支持了研究假設，證明了LLMs在自動分類開放式問卷中的有效性。然而，樣本量小可能限制了結果的普適性。 ### 局限性與偏見 1. **樣本量小**：僅使用了51份記錄，可能缺乏多樣性，影響結果的普適性。 2. **解釋性不足**：專有模型如GPT-4o缺乏直接的解釋性，可能影響臨床應用中的信任度。 3. **潛在偏差**：家長的回答可能受教育背景、文化差異等因素影響，未在研究中考慮。 ### 臨床及未來研究意涵 1. **臨床應用**：研究表明LLMs可以作為ASD評估的可擴展且成本有效的補充工具。 2. **未來研究**：建議收集更大樣本量的數據，來提高模型的普適性和可靠性。同時，開發更具解釋性的模型以提高臨床應用的可信度。 ### 其他觀點 1. **開放式問卷的優勢**：能夠捕捉更豐富的資訊，但分析難度較高。LLMs提供了一種高效的解決方案。 2. **模型解釋性**：未來研究可以探討如何在不犧牲性能的情況下提高模型的解釋性。 3. **結合其他評估工具**：可以探討將LLMs與其他評估工具結合，以提高分類的準確性和可靠性。 ### 總結該研究展示了LLMs在心理評估中的潛力，特別是在ASD的分類任務中。然而，樣本量小和解釋性不足仍是需要克服的挑戰。未來研究應重視樣本多樣性和模型解釋性，以提高臨床應用的可信度和實用性。