Assessing the accuracy and consistency of large language models in triaging social media posts for psychological distress.

大型語言模型在篩選社群媒體貼文以評估心理困擾時的準確性與一致性評估

<think> 嗯，我看到這篇研究是要評估大型語言模型在社交媒體上分診心理困擾的準確性和一致性。首先，我得弄清楚研究的目的和假設。研究目的是探討LLMs能不能有效地分診社交媒體帖子，找出那些有心理困擾的人，然後及時介入。假設可能是LLMs能夠準確地評估心理困擾的嚴重程度，但可能也會有一些偏差。接下來，研究方法是用了三個最先進的模型，ChatGPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro，來分析425個義大利語的Reddit帖子。評估基準是調整過的Mental Health Triage Scale，由臨床專家評估。還用了零樣本提示的方法，有的還假扮成臨床醫生的角度，看看模型能不能評估干預的緊急程度。結果顯示，LLMs總是高估了緊急程度，雖然和人類評分有一定的相關性，尤其是GPT-4o和Claude 3.5 Sonnet的協議度比較高。GPT-4o分類表現最好，但Claude有高敏感度但低精確度，容易產生假陽性，而Gemini表現平平，偏向保守。那數據解釋方面，結果支持了LLMs在分診上的潛力，但也挑戰了假設，因為模型傾向於高估緊急程度。可能解釋上的偏差來自於模型對負面情緒的敏感度更高，或者訓練資料中的偏差。研究的局限性可能包括樣本量不大，僅限於義大利語，還有評分尺度的調整可能影響結果。未考慮到的變數可能包括帖子的主題多樣性和用戶背景差異。臨床意涵方面，LLMs可以幫助初步篩選，但需要人類監督，尤其是在高風險案例。未來研究可以考慮多語言模型，增加樣本量，改進模型以減少偏差。其他可能的解釋是，模型可能在學習過程中接觸過更多的心理健康資料，所以更容易辨識相關詞匙，導致高估。或者，人類評分可能更為保守，而模型則傾向於過度預防。總的來說，研究展示了LLMs在心理健康分診上的潛力，但也強調了需要人類的監督和模型的改進。 </think> ### 研究目的與假設本研究旨在探討大型語言模型（LLMs）在分診社交媒體上表達心理困擾的帖子時的準確性和一致性。研究假設LLMs能夠有效識別並評估這些帖子的緊急程度，類似於人類臨床評估。 ### 方法與設計研究採用了三個先進的LLMs，並使用調整後的Mental Health Triage Scale進行評估。零樣本提示方法合理，尤其是模擬臨床醫生的角度，有助於評估模型的應用潛力。優點在於能快速處理大量資料，缺點是可能缺乏針對特定語境的微調。 ### 數據解釋與結果結果顯示LLMs傾向於高估緊急程度，尤其是Claude 3.5 Sonnet，儘管GPT-4o表現最佳。這挑戰了假設，因為模型的評估與人類存在差異，可能源於過度敏感或訓練資料的偏差。 ### 局限性與偏見研究主要限於義大利語資料，樣本量有限，且評分尺度的調整可能影響結果。未考慮的變數包括帖子的主題多樣性和用戶背景，可能導致模型偏差。 ### 臨床及未來研究意涵 LLMs在初步篩選上有潛力，但需人類監督以避免誤判。未來研究可探討多語言模型，增加樣本量，並改進模型以減少偏差。 ### 其他觀點模型可能因訓練資料中的心理健康內容而更敏感，導致高估。人類評分可能更保守，而模型傾向於過度預防，以確保不漏掉高風險案例。 ### 總結研究展示了LLMs在心理健康分診上的潛力，但也強調了人類監督的重要性，並指出未來改進的方向，以提升模型的準確性和可靠性。