Crisis prediction among tele-mental health patients: A large language model and expert clinician comparison.
電訪精神健康患者危機預測：大型語言模型與專家臨床醫師比較。 JMIR Ment Health 2024-06-14

人工智慧進步，如OpenAI的GPT-4，對語言任務很有幫助。研究評估GPT-4在預測心理健康危機上的表現，發現臨床醫師在主訴方面表現較佳，但加入自殺企圖歷史後，兩者表現都有改善。GPT-4有潛力匹敵臨床醫師，但仍需進一步測試，包括偏見檢查。LLMs可提升患者風險辨識，改善護理品質。 PubMed DOI

The Opportunities and Risks of Large Language Models in Mental Health.
大型語言模型在心理健康領域的機會與風險。 JMIR Ment Health 2024-08-06

全球心理健康問題日益嚴重，現有的照護模式無法滿足需求。大型語言模型（LLMs）被視為解決方案，能在心理健康教育、評估和介入上提供幫助。本文回顧了LLMs的應用，並指出其潛在的正面影響與風險，強調需採取策略來降低風險。平衡心理健康支持的需求與LLMs的負責任開發至關重要，確保這些模型符合倫理標準，並讓有經驗的人參與開發，以減少傷害並增強其正面影響。 PubMed DOI

Integrating Previous Suicide Attempts, Gender, and Age Into Suicide Risk Assessment Using Advanced Artificial Intelligence Models.
整合過去自殺嘗試、性別和年齡於自殺風險評估中，使用先進的人工智慧模型。 J Clin Psychiatry 2024-10-03

本研究探討生成式人工智慧（GenAI）在自殺風險評估中的表現，特別是ChatGPT-3.5和ChatGPT-4。研究發現，過去的自殺嘗試對預測風險至關重要，且ChatGPT-4能識別性別差異，顯示男性風險較高，但兩者都未將年齡視為重要因素。結果顯示這些模型在評估自殺風險上有潛力，但因其局限性及現實情境的複雜性，應謹慎應用。 PubMed DOI

Aligning Large Language Models for Enhancing Psychiatric Interviews Through Symptom Delineation and Summarization: Pilot Study.
透過症狀劃分與總結來增強精神科訪談的大型語言模型對齊：初步研究。 JMIR Form Res 2024-10-24

這項研究探討大型語言模型（LLMs）在精神科訪談中的應用，特別針對北韓脫北者的心理健康挑戰。研究目標是確認LLMs能否有效識別精神病症狀並總結壓力源。主要任務包括提取壓力源、識別症狀及總結訪談內容。結果顯示，使用GPT-4 Turbo模型後，73個記錄片段準確關聯精神病症狀，經微調後性能提升，平均準確率達0.82。LLMs生成的摘要在連貫性和相關性上得分高，顯示其在心理健康領域的潛力。 PubMed DOI

Comparative analysis of BERT-based and generative large language models for detecting suicidal ideation: a performance evaluation study.
基於 BERT 的模型與生成性大型語言模型在偵測自殺意念方面的比較分析：一項性能評估研究。 Cad Saude Publica 2024-11-28

這項研究比較了三種不同版本的BERT模型和大型語言模型（LLMs）在檢測巴西葡萄牙語文本中的自殺意念的效果。數據集包含2,691句無自殺意念和1,097句有自殺意念的句子，經心理學家標註。結果顯示，Bing/GPT-4表現最佳，準確率達98%，其次是微調過的BERTimbau-Large（96%）和BERTimbau-Base（94%）。Bard最低，僅62%。雖然模型召回率高，但研究強調尚未在臨床環境驗證，使用時需謹慎。 PubMed DOI

Using large language models to detect outcomes in qualitative studies of adolescent depression.
使用大型語言模型來檢測青少年憂鬱症質性研究中的結果。 J Am Med Inform Assoc 2024-12-11

這項研究探討如何利用大型語言模型（LLMs）來識別青少年抑鬱症訪談中的心理治療結果。作者建立了一個編碼框架，能夠捕捉多樣的治療結果，並評估五個開源LLM的分類能力。實驗結果顯示，這些模型能有效分類31種結果，ROC曲線下面積得分在0.6到1.0之間，成功識別出友誼和學業表現等重要結果。研究強調了臨床數據的應用，顯示詳細編碼治療結果的可行性，並有助於量化重要結果。 PubMed DOI

Evaluating of BERT-based and Large Language Mod for Suicide Detection, Prevention, and Risk Assessment: A Systematic Review.
基於 BERT 的大型語言模型在自殺檢測、預防和風險評估中的評估：系統性回顧。 J Med Syst 2024-12-31

自殺是重要的公共健康議題，人工智慧的進步，特別是大型語言模型（LLMs），在自殺檢測和預防上有顯著貢獻。這篇綜述分析了2018年到2024年間的29項研究，探討像GPT、Llama和BERT等模型在自殺預防中的應用。研究顯示，這些模型在早期檢測和預測方面通常表現優於心理健康專業人士。儘管LLMs展現出拯救生命的潛力，但仍需解決倫理問題，並與心理健康專家合作。 PubMed DOI

Applications of Large Language Models in the Field of Suicide Prevention: Scoping Review.
大型語言模型在自殺預防領域的應用：範疇回顧。 J Med Internet Res 2025-01-23

自殺預防是全球健康的重要議題，每年約有80萬人因自殺而喪生。大型語言模型（LLMs）在數位服務中有助於自殺預防，但也帶來臨床與倫理挑戰。2024年2月的回顧研究分析了43項相關研究，發現大多數集中於自殺風險識別，並探討了LLMs在臨床應用中的潛力。研究指出，隱私和同意等倫理問題需特別注意，並強調多學科合作及高品質數據的重要性。生成性人工智慧的發展可能改善危機護理與教育，但需持續人類監督。 PubMed DOI

Deductively coding psychosocial autopsy interview data using a few-shot learning large language model.
使用少量學習的大型語言模型對心理社會驗屍訪談數據進行演繹編碼。 Front Public Health 2025-03-06

這項研究探討大型語言模型（LLM）在質性研究中的應用，特別是針對自殺的心理社會驗屍。研究進行了38次半結構式訪談，評估LLM在編碼和總結自殺喪失者訪談數據的能力。結果顯示，LLM與人類研究者在二元分類上有高一致性（準確率0.84），總結的評價也有80%為正面。研究建議將LLM與人類審查結合，以提高效率，並呼籲未來在不同背景下進一步探索這些發現。 PubMed DOI

Competency of Large Language Models in Evaluating Appropriate Responses to Suicidal Ideation: Comparative Study.
大型語言模型在評估對自殺意念的適當回應能力：比較研究。 J Med Internet Res 2025-03-07

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示，這三個模型的反應評價普遍比專家自殺學者更適當，尤其是ChatGPT的評分差異最大。異常值分析發現，Gemini的偏差比例最高。整體來看，ChatGPT的表現相當於碩士級輔導員，Claude超過受訓心理健康專業人士，而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向，但部分模型的表現已達到或超過專業水平。 PubMed DOI

原始文章

站上相關主題文章列表