Evaluating of BERT-based and Large Language Mod for Suicide Detection, Prevention, and Risk Assessment: A Systematic Review.
基於 BERT 的大型語言模型在自殺檢測、預防和風險評估中的評估：系統性回顧。 J Med Syst 2024-12-31

自殺是重要的公共健康議題，人工智慧的進步，特別是大型語言模型（LLMs），在自殺檢測和預防上有顯著貢獻。這篇綜述分析了2018年到2024年間的29項研究，探討像GPT、Llama和BERT等模型在自殺預防中的應用。研究顯示，這些模型在早期檢測和預測方面通常表現優於心理健康專業人士。儘管LLMs展現出拯救生命的潛力，但仍需解決倫理問題，並與心理健康專家合作。 PubMed DOI

Applications of Large Language Models in the Field of Suicide Prevention: Scoping Review.
大型語言模型在自殺預防領域的應用：範疇回顧。 J Med Internet Res 2025-01-23

自殺預防是全球健康的重要議題，每年約有80萬人因自殺而喪生。大型語言模型（LLMs）在數位服務中有助於自殺預防，但也帶來臨床與倫理挑戰。2024年2月的回顧研究分析了43項相關研究，發現大多數集中於自殺風險識別，並探討了LLMs在臨床應用中的潛力。研究指出，隱私和同意等倫理問題需特別注意，並強調多學科合作及高品質數據的重要性。生成性人工智慧的發展可能改善危機護理與教育，但需持續人類監督。 PubMed DOI

Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data.
Mental-LLM：利用大型語言模型透過線上文本數據進行心理健康預測。 Proc ACM Interact Mob Wearable Ubiquitous Technol 2025-02-10

這項研究評估了多種大型語言模型（LLMs）在心理健康預測任務中的表現，測試的模型包括Alpaca、FLAN-T5、GPT-3.5和GPT-4。研究探討了不同的提示技術，結果顯示指令微調能顯著提升模型能力，尤其是Mental-Alpaca和Mental-FLAN-T5在準確率上超越了GPT-3.5和GPT-4。此外，研究也強調了模型的推理能力及其在實際應用中的倫理問題與偏見考量。這些發現為改善LLM在心理健康領域的應用提供了指導。 PubMed DOI

Large language models and psychiatry.
大型語言模型與精神醫學。 Int J Law Psychiatry 2025-02-28

生成式人工智慧和大型語言模型（LLMs），如GPT-4，對臨床醫學和認知心理學影響深遠。這些模型在理解和生成語言方面表現優異，能改善臨床決策和心理諮詢。雖然LLMs在類比推理和隱喻理解上表現良好，但在因果推理和複雜規劃上仍有挑戰。本文探討LLMs的認知能力及其在心理測試中的表現，並討論其在認知心理學和精神醫學的應用、限制及倫理考量，強調進一步研究的重要性，以釋放其潛力。 PubMed DOI

Competency of Large Language Models in Evaluating Appropriate Responses to Suicidal Ideation: Comparative Study.
大型語言模型在評估對自殺意念的適當回應能力：比較研究。 J Med Internet Res 2025-03-07

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示，這三個模型的反應評價普遍比專家自殺學者更適當，尤其是ChatGPT的評分差異最大。異常值分析發現，Gemini的偏差比例最高。整體來看，ChatGPT的表現相當於碩士級輔導員，Claude超過受訓心理健康專業人士，而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向，但部分模型的表現已達到或超過專業水平。 PubMed DOI

Effectiveness of generative AI-large language models' recognition of veteran suicide risk: a comparison with human mental health providers using a risk stratification model.
生成式 AI-大型語言模型辨識退伍軍人自殺風險的效能：與人類心理健康醫療提供者運用風險分層模型之比較 Front Psychiatry 2025-04-18

這項研究發現，主流AI語言模型在評估退伍軍人自殺風險和治療建議上，表現常與專業人員不同，容易高估或低估風險，且各AI模型間差異大。雖然AI有時能與人類判斷一致，但治療建議不夠穩定，像ChatGPT-4o就全都建議住院。AI目前只能當輔助工具，不能取代專業判斷，臨床應用前還需要更多研究和專家監督。 PubMed DOI

A scoping review of large language models for generative tasks in mental health care.
大型語言模型於精神健康照護生成性任務之範疇性回顧 NPJ Digit Med 2025-04-30

大型語言模型在心理健康照護上有潛力，但目前研究方法不一、太依賴特定模型，證據還不夠支持單獨用LLMs治療。未來要有更嚴謹和標準的研究，才能安全有效地應用在臨床上。 PubMed DOI

Reasoning language models for more transparent prediction of suicide risk.
用於更透明自殺風險預測的推理語言模型 BMJ Ment Health 2025-05-11

一個本地運作的小型語言模型（Llama-DeepSeek-R1 8B），在預測住院病人自殺風險時，表現幾乎跟大型的GPT-4o一樣好，雖然準確度略低（c-statistic 0.64 vs 0.67），但還是能有效找出高風險族群。這代表小型模型也能安全、有效地應用在自殺風險預測上，且更容易取得與擴展。 PubMed DOI

Large Language Models and Text Embeddings for Detecting Depression and Suicide in Patient Narratives.
大型語言模型與文本嵌入於病患敘述中偵測憂鬱與自殺的應用 JAMA Netw Open 2025-05-23

這項研究發現，大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中，準確辨識憂鬱症和自殺風險，尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估，但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

原始文章

站上相關主題文章列表