原始文章

這項研究用大型語言模型分析德文心理治療逐字稿,偵測28種情緒,並預測病人症狀嚴重度和治療聯盟。模型在情緒分類表現普通,但預測症狀嚴重度效果不錯(r=.50),預測治療聯盟則中等(r=.20)。認可、憤怒、恐懼與症狀嚴重度有關,好奇、困惑、驚訝則與治療聯盟有關。結果顯示正負向情緒都很重要,未來應加強情緒資料集並納入更多語境和感官資訊。 PubMed DOI


站上相關主題文章列表

這項研究提出了一種新方法,利用E-DAIC數據集自動預測憂鬱症的嚴重程度。研究人員運用大型語言模型(LLMs)從訪談文字中提取憂鬱症指標,並用患者健康問卷-8(PHQ-8)分數訓練預測模型。他們還結合視頻中的面部數據,發展多模態方法。結果顯示,增強文字數據的語音質量能達到最佳表現,平均絕對誤差為2.85,均方根誤差為4.02。整體來看,這項研究強調了自動化憂鬱症檢測的有效性,並建議多模態分析的優勢。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這項研究探討大型語言模型(LLMs)在分類與心理健康相關的電子健康紀錄(EHRs)術語的有效性,並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據,分析了因心理健康問題入院的病人EHR。結果顯示,LLM與臨床醫生在術語的廣泛分類上達成高一致性(κ=0.77),但在具體的心理健康(κ=0.62)和身體健康術語(κ=0.69)上則較低,顯示出LLM的變異性。儘管如此,研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI

這項研究發現,經過優化指令後,AI語言模型在辨識故事中的人際情緒調節策略,準確度已接近人工,但在不同情緒和策略上仍有落差。研究強調AI分析敘事資料有潛力,但設計指令和驗證結果時要特別小心。 PubMed DOI

這篇論文提出COMPASS架構,運用大型語言模型,能自動從心理治療會談逐字稿評估治療關係品質,不用再靠傳統問卷。COMPASS分析950多場不同精神疾病的會談,能追蹤病人和治療師互動變化,找出各疾病特有的對話模式,並提供具體、可解釋的建議,協助治療師即時提升治療效果。 PubMed DOI

這項研究發現,大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中,準確辨識憂鬱症和自殺風險,尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估,但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

這項研究發現,透過提示工程(prompt engineering)可以提升大型語言模型在心理治療(PST)初期階段的表現,尤其在症狀辨識和目標設定上更有效。雖然品質和同理心有所提升,但仍有侷限。整體來說,LLM 有潛力協助解決心理健康人力不足,推動 AI 治療服務發展。 PubMed

這項研究發現,GPT-4在辨識圖片情緒(愉悅度和激發度)時,表現和人類相近,但對細微情緒還是有點吃力。這代表未來用GPT-4來自動篩選和驗證情緒刺激,有機會大幅減少人力、提升效率。 PubMed DOI

這項研究發現,GPT-4在分析癌症病患與醫療人員的對話內容時,和人類專家有高度到中度的一致性,像是判斷有無討論症狀、誰先提起、以及建議內容等。雙方意見分歧的情況不多,且有詳細分類。結果顯示,LLM有潛力協助提升醫療溝通與照護品質。 PubMed DOI

這項研究用大型語言模型(LLM)自動評分治療逐字稿中的心理構念(如病人參與度),取代傳統人工評分。實驗用 Llama 3.1 8B 分析 1,131 場治療,結果顯示 LLM 評分具高信度與效度,且與治療結果高度相關。這方法不僅減輕參與者負擔、保護隱私,也為心理評估帶來新可能。 PubMed DOI