Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

Large Language Models' Accuracy in Emulating Human Experts' Evaluation of Public Sentiments about Heated Tobacco Products on Social Media: Evaluation Study.
大型語言模型在模擬人類專家對社交媒體上加熱煙草產品公共情緒評估的準確性：評估研究。 J Med Internet Res 2025-03-07

這項研究分析大型語言模型（LLMs），特別是GPT-3.5和GPT-4 Turbo，對加熱煙草產品（HTPs）相關社交媒體訊息的情感分析效果。研究分析了1,000則訊息，結果顯示GPT-3.5在Facebook的準確率為61.2%，Twitter為57%；而GPT-4 Turbo則在Facebook達到81.7%，Twitter為77%。即使只用三個回應，GPT-4 Turbo的準確率也可達99%。研究指出，LLMs在分析HTPs討論情感上有效，但不同情感類別的準確性差異可能會影響整體結果，未來需進一步探討。 PubMed DOI

Competency of Large Language Models in Evaluating Appropriate Responses to Suicidal Ideation: Comparative Study.
大型語言模型在評估對自殺意念的適當回應能力：比較研究。 J Med Internet Res 2025-03-07

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示，這三個模型的反應評價普遍比專家自殺學者更適當，尤其是ChatGPT的評分差異最大。異常值分析發現，Gemini的偏差比例最高。整體來看，ChatGPT的表現相當於碩士級輔導員，Claude超過受訓心理健康專業人士，而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向，但部分模型的表現已達到或超過專業水平。 PubMed DOI

Exploring the Potential of Large Language Models for Automated Safety Plan Scoring in Outpatient Mental Health Settings.
探索大型語言模型在門診心理健康環境中自動安全計劃評分的潛力。 medRxiv 2025-04-08

安全規劃介入忠實度評估工具（SPIFR）是一個自動化工具，專門用來評估自殺風險管理的安全規劃介入（SPI）質量。它利用三個大型語言模型（LLMs）分析了266個去識別化的SPI，重點在於警示徵兆、內部應對策略、安全環境及生存理由。研究發現，LLaMA 3和o3-mini的表現優於GPT-4，並針對每個步驟提出了最佳評分系統。這顯示大型語言模型在提供臨床醫師即時且準確的反饋方面的潛力，有助於提升自殺預防策略的有效性。 PubMed DOI

Development and preliminary testing of a secure large language model-based chatbot for brief alcohol counseling in young adults.
以大型語言模型為基礎的安全聊天機器人於年輕成人短期酒精諮詢之開發與初步測試 Drug Alcohol Depend 2025-05-07

這項初步研究測試用GPT-4打造的聊天機器人MICA，運用動機式晤談技巧協助18到25歲年輕人討論酒精使用。結果顯示MICA安全無虞，經調整後MI技巧表現更好，使用者也覺得很方便。MICA能有效促進行為改變的討論，但還需要更大規模的研究來確認對飲酒行為的實際影響。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

Reasoning language models for more transparent prediction of suicide risk.
用於更透明自殺風險預測的推理語言模型 BMJ Ment Health 2025-05-11

一個本地運作的小型語言模型（Llama-DeepSeek-R1 8B），在預測住院病人自殺風險時，表現幾乎跟大型的GPT-4o一樣好，雖然準確度略低（c-statistic 0.64 vs 0.67），但還是能有效找出高風險族群。這代表小型模型也能安全、有效地應用在自殺風險預測上，且更容易取得與擴展。 PubMed DOI

Large Language Models and Text Embeddings for Detecting Depression and Suicide in Patient Narratives.
大型語言模型與文本嵌入於病患敘述中偵測憂鬱與自殺的應用 JAMA Netw Open 2025-05-23

這項研究發現，大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中，準確辨識憂鬱症和自殺風險，尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估，但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

Enhancing Substance Use Detection in Clinical Notes with Large Language Models.
利用大型語言模型提升臨床紀錄中物質使用偵測能力 Res Sq 2025-06-05

這篇研究用標註過的出院摘要，建立大規模資料集，並用多種大型語言模型來偵測八種物質使用情形。經過微調的 Llama-DrugDetector-70B 模型，對大多數物質的偵測準確率很高（F1 分數 ≥ 0.95），但像鴉片類藥物和多重物質使用的偵測還有進步空間。整體來說，LLM 有助提升臨床紀錄中物質使用的辨識，但還需要更多研究才能廣泛應用。 PubMed DOI

Assessing the accuracy and consistency of large language models in triaging social media posts for psychological distress.
大型語言模型在篩選社群媒體貼文以評估心理困擾時的準確性與一致性評估 Psychiatry Res 2025-06-14

這項研究比較三款AI語言模型在判斷Reddit心理困擾貼文緊急程度的表現，發現它們都容易高估風險，但GPT-4o和Claude 3.5 Sonnet的結果較接近臨床醫師，GPT-4o表現最好。雖然AI有潛力協助心理健康分級，但還是需要專業人員把關。 PubMed DOI

原始文章

站上相關主題文章列表