Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

Classifying Unstructured Text in Electronic Health Records for Mental Health Prediction Models: Large Language Model Evaluation Study.
電子健康紀錄中非結構化文本的分類以進行心理健康預測模型：大型語言模型評估研究。 JMIR Med Inform 2025-01-26

這項研究探討大型語言模型（LLMs）在分類與心理健康相關的電子健康紀錄（EHRs）術語的有效性，並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據，分析了因心理健康問題入院的病人EHR。結果顯示，LLM與臨床醫生在術語的廣泛分類上達成高一致性（κ=0.77），但在具體的心理健康（κ=0.62）和身體健康術語（κ=0.69）上則較低，顯示出LLM的變異性。儘管如此，研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI

Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data.
Mental-LLM：利用大型語言模型透過線上文本數據進行心理健康預測。 Proc ACM Interact Mob Wearable Ubiquitous Technol 2025-02-10

這項研究評估了多種大型語言模型（LLMs）在心理健康預測任務中的表現，測試的模型包括Alpaca、FLAN-T5、GPT-3.5和GPT-4。研究探討了不同的提示技術，結果顯示指令微調能顯著提升模型能力，尤其是Mental-Alpaca和Mental-FLAN-T5在準確率上超越了GPT-3.5和GPT-4。此外，研究也強調了模型的推理能力及其在實際應用中的倫理問題與偏見考量。這些發現為改善LLM在心理健康領域的應用提供了指導。 PubMed DOI

AI-driven analyzes of open-ended responses to assess outcomes of internet-based cognitive behavioral therapy (ICBT) in adolescents with anxiety and depression comorbidity.
AI 驅動的開放式回應分析以評估青少年焦慮與抑鬱共病的網路認知行為療法 (ICBT) 成效。 J Affect Disord 2025-04-05

這項研究探討利用人工智慧分析開放式語言回應，來增強青少年網路認知行為療法的心理健康評估。44名瑞典青少年在介入前後完成焦慮和憂鬱量表及三個開放式問題，研究發現語言分析能顯示心理健康的顯著改善，與傳統量表結果相似。這種方法不僅有效且準確，還能提供更深入的見解，解決傳統問卷的理解問題。研究建議將人工智慧語言分析整合進心理健康評估中，作為補充工具。 PubMed DOI

Estimating depression severity in narrative clinical notes using large language models.
使用大型語言模型估計敘事臨床筆記中的抑鬱嚴重性。 J Affect Disord 2025-04-05

這項研究探討病人自報結果量表（PROMs），特別是PHQ-9，對門診抑鬱症治療紀錄質量的影響。研究分析了18,000份臨床筆記，重點在2019至2024年期間的就診紀錄。主要發現顯示，參與者平均年齡46.3歲，大多數為女性，PHQ-9平均分數較低，只有4.8%符合中度或以上的抑鬱症狀。雖然大型語言模型（LLM）能提供一些見解，但在移除實際分數後，準確性不佳，顯示依賴PROMs可能導致精神症狀紀錄不夠全面。 PubMed DOI

AI Driven Wearables and Large Language Models for Student Well-Being: A Preliminary Study.
AI 驅動的可穿戴設備與大型語言模型對學生福祉的影響：一項初步研究。 Stud Health Technol Inform 2025-04-09

這份報告探討了將大型語言模型（LLMs）與可穿戴技術結合的初步成果，目的是提供個性化建議，提升學生的福祉與學業表現。我們分析了學生的數據，包括可穿戴設備的指標和學術報告的質性反饋，進行情感分析以評估情緒狀態。研究顯示，LLMs能有效分析文本數據，提供實用見解，幫助了解學生的參與度並找出改進空間，顯示出LLMs在教育上的潛力，能更深入理解學生需求。 PubMed DOI

Large Language Models and Text Embeddings for Detecting Depression and Suicide in Patient Narratives.
大型語言模型與文本嵌入於病患敘述中偵測憂鬱與自殺的應用 JAMA Netw Open 2025-05-23

這項研究發現，大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中，準確辨識憂鬱症和自殺風險，尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估，但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

Employing large language models for emotion detection in psychotherapy transcripts.
在心理治療逐字稿中運用大型語言模型進行情緒偵測 Front Psychiatry 2025-05-26

這項研究用大型語言模型分析德文心理治療逐字稿，偵測28種情緒，並預測病人症狀嚴重度和治療聯盟。模型在情緒分類表現普通，但預測症狀嚴重度效果不錯（r=.50），預測治療聯盟則中等（r=.20）。認可、憤怒、恐懼與症狀嚴重度有關，好奇、困惑、驚訝則與治療聯盟有關。結果顯示正負向情緒都很重要，未來應加強情緒資料集並納入更多語境和感官資訊。 PubMed DOI

<i>ExDoRA</i>: enhancing the transferability of large language models for depression detection using free-text explanations.
ExDoRA：利用自由文本解釋提升大型語言模型於憂鬱症偵測的可遷移性 Front Artif Intell 2025-06-05

這篇論文提出 ExDoRA 框架，透過挑選最相關又多元的 few-shot 範例，結合 LLM 產生的文字解釋，能有效提升 LLM 在新任務上的表現。應用於對話式憂鬱症偵測時，ExDoRA 不僅能穩定給出高品質解釋，還大幅提升召回率和 F1 分數，展現其在數位心理健康篩檢的潛力。 PubMed DOI

Detecting the clinical features of difficult-to-treat depression using synthetic data from large language models.
利用大型語言模型生成的合成資料偵測難治型憂鬱症的臨床特徵 Comput Biol Med 2025-06-11

這項研究用GPT-3.5產生的合成資料訓練BERT模型，能自動從電子病歷自由文本中抓出難治型憂鬱症的關鍵預後因子。模型在真實臨床資料上辨識20個相關因子，F1分數最高達0.85。這方法有助於用日常紀錄偵測DTD，不需用到敏感資料或花錢請專家標註。 PubMed DOI

原始文章

站上相關主題文章列表