Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

Competency of Large Language Models in Evaluating Appropriate Responses to Suicidal Ideation: Comparative Study.
大型語言模型在評估對自殺意念的適當回應能力：比較研究。 J Med Internet Res 2025-03-07

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示，這三個模型的反應評價普遍比專家自殺學者更適當，尤其是ChatGPT的評分差異最大。異常值分析發現，Gemini的偏差比例最高。整體來看，ChatGPT的表現相當於碩士級輔導員，Claude超過受訓心理健康專業人士，而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向，但部分模型的表現已達到或超過專業水平。 PubMed DOI

Exploring the Potential of Large Language Models for Automated Safety Plan Scoring in Outpatient Mental Health Settings.
探索大型語言模型在門診心理健康環境中自動安全計劃評分的潛力。 medRxiv 2025-04-08

安全規劃介入忠實度評估工具（SPIFR）是一個自動化工具，專門用來評估自殺風險管理的安全規劃介入（SPI）質量。它利用三個大型語言模型（LLMs）分析了266個去識別化的SPI，重點在於警示徵兆、內部應對策略、安全環境及生存理由。研究發現，LLaMA 3和o3-mini的表現優於GPT-4，並針對每個步驟提出了最佳評分系統。這顯示大型語言模型在提供臨床醫師即時且準確的反饋方面的潛力，有助於提升自殺預防策略的有效性。 PubMed DOI

Effectiveness of generative AI-large language models' recognition of veteran suicide risk: a comparison with human mental health providers using a risk stratification model.
生成式 AI-大型語言模型辨識退伍軍人自殺風險的效能：與人類心理健康醫療提供者運用風險分層模型之比較 Front Psychiatry 2025-04-18

這項研究發現，主流AI語言模型在評估退伍軍人自殺風險和治療建議上，表現常與專業人員不同，容易高估或低估風險，且各AI模型間差異大。雖然AI有時能與人類判斷一致，但治療建議不夠穩定，像ChatGPT-4o就全都建議住院。AI目前只能當輔助工具，不能取代專業判斷，臨床應用前還需要更多研究和專家監督。 PubMed DOI

Leveraging social media and large language models for scalable alcohol risk assessment: Examining validity with AUDIT-C and post recency effects.
運用社群媒體與大型語言模型進行可擴展的酒精風險評估：以 AUDIT-C 檢驗效度及貼文新近效應 Addict Behav 2025-05-14

這項研究發現，像Gemini 1.5 Pro和GPT-4o這類大型語言模型，能從Facebook貼文中中等準確地偵測出有風險的飲酒行為，尤其對近期有發文的人效果更好。LLMs有機會成為低干擾、可擴展的篩檢工具，但仍需更多研究來確認其應用。 PubMed DOI

Assessing the Accuracy and Reliability of Large Language Models in Psychiatry Using Standardized Multiple-Choice Questions: Cross-Sectional Study.
使用標準化選擇題評估大型語言模型於精神醫學中的準確性與可靠性：橫斷面研究 J Med Internet Res 2025-05-20

這項研究用150題選擇題測試GPT-3.5、GPT-4和GPT-4o的精神醫學知識，結果GPT-4和GPT-4o的正確率（84%和87.3%）明顯高於GPT-3.5（58%），而且新版模型答題更一致。重複作答的一致性能預測正確率，但模型自評信心沒什麼參考價值。整體來說，GPT-4和GPT-4o在精神醫學知識上表現可靠，有潛力應用於心理健康領域，但複雜臨床任務還需更多研究。 PubMed DOI

Large Language Models and Text Embeddings for Detecting Depression and Suicide in Patient Narratives.
大型語言模型與文本嵌入於病患敘述中偵測憂鬱與自殺的應用 JAMA Netw Open 2025-05-23

這項研究發現，大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中，準確辨識憂鬱症和自殺風險，尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估，但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

Investigating the interpretability of ChatGPT in mental health counseling: An analysis of artificial intelligence generated content differentiation.
探討 ChatGPT 在心理健康諮詢中的可解釋性：人工智慧生成內容差異化之分析 Comput Methods Programs Biomed 2025-05-27

這項研究發現，ChatGPT在心理諮詢上的專業度、同理心和人性化表現，跟人類諮商師差不多。不過，AI還是能被辨識出來，主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說，ChatGPT有潛力協助心理健康，但還有不少實務和倫理挑戰要解決。 PubMed DOI

Racial bias in AI-mediated psychiatric diagnosis and treatment: a qualitative comparison of four large language models.
AI輔助精神科診斷與治療中的種族偏見：四種大型語言模型的質性比較 NPJ Digit Med 2025-06-04

最新研究發現，主流AI語言模型在精神科治療建議上，對非裔美國人病患常出現明顯偏見，尤其在種族資訊明確時更明顯。NewMes-15偏見最嚴重，Gemini則最少。這顯示AI有可能加劇醫療種族不平等，未來醫療AI必須加強偏見檢測與修正。 PubMed DOI

Applying language models for suicide prevention: evaluating news article adherence to WHO reporting guidelines.
應用語言模型於自殺防治：評估新聞報導對WHO報導指引的遵循情形 Npj Ment Health Res 2025-06-23

這項研究發現，像ChatGPT-4這類大型語言模型，能準確評估自殺新聞是否符合WHO指引，結果和人工審查者高度一致。代表AI有機會協助媒體負責任地報導自殺議題，能即時、大規模給記者回饋，對推動公共衛生很有幫助。 PubMed DOI

原始文章

站上相關主題文章列表