Evaluating of BERT-based and Large Language Mod for Suicide Detection, Prevention, and Risk Assessment: A Systematic Review.
基於 BERT 的大型語言模型在自殺檢測、預防和風險評估中的評估：系統性回顧。 J Med Syst 2024-12-31

自殺是重要的公共健康議題，人工智慧的進步，特別是大型語言模型（LLMs），在自殺檢測和預防上有顯著貢獻。這篇綜述分析了2018年到2024年間的29項研究，探討像GPT、Llama和BERT等模型在自殺預防中的應用。研究顯示，這些模型在早期檢測和預測方面通常表現優於心理健康專業人士。儘管LLMs展現出拯救生命的潛力，但仍需解決倫理問題，並與心理健康專家合作。 PubMed DOI

M.I.N.I.-KID interviews with adolescents: a corpus-based language analysis of adolescents with depressive disorders and the possibilities of continuation using Chat GPT.
青少年 M.I.N.I.-KID 訪談：針對抑鬱症青少年的語料庫語言分析及使用 Chat GPT 繼續進行的可能性。 Front Psychiatry 2025-01-03

這項研究開發了一個聊天機器人，目的是早期識別青少年的抑鬱症狀，並解決精神科服務接觸率低的問題。研究分為兩個步驟： 1. **數據收集與分析**：對53名青少年進行標準化訪談，產生4,077對問答，訓練出一個準確率高達97%的模型，能有效區分有無抑鬱症的青少年。 2. **使用Chat GPT生成數據**：為增強數據集，研究利用Chat GPT生成額外語句，發現有效的提示工程具有挑戰性，但成功策略是平衡提示長度與示例數量。總體來看，這項研究顯示分析青少年語言模式能有效識別抑鬱症狀，而Chat GPT則是創建合成數據的好工具。 PubMed DOI

Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

Using Large Language Models to Detect and Understand Drug Discontinuation Events in Web-Based Forums: Development and Validation Study.
使用大型語言模型檢測和理解網路論壇中的藥物中斷事件：開發與驗證研究。 J Med Internet Res 2025-01-30

這項研究探討如何利用大型語言模型（LLMs），如BART和GPT-4，從MedHelp論壇的用戶評論中識別藥物停用事件（DDEs）。DDEs對藥物依從性和病人結果至關重要，但研究仍不多。研究人員建立了一個靈活的框架，並發布了首個開源DDE數據集，以促進後續研究。結果顯示，GPT-4o在識別根本原因上表現優異，而BART在檢測DDEs方面最有效。這項研究顯示了LLMs在分析公開數據的潛力，並鼓勵進一步探索。 PubMed DOI

Estimating depression severity in narrative clinical notes using large language models.
使用大型語言模型估計敘事臨床筆記中的抑鬱嚴重性。 J Affect Disord 2025-04-05

這項研究探討病人自報結果量表（PROMs），特別是PHQ-9，對門診抑鬱症治療紀錄質量的影響。研究分析了18,000份臨床筆記，重點在2019至2024年期間的就診紀錄。主要發現顯示，參與者平均年齡46.3歲，大多數為女性，PHQ-9平均分數較低，只有4.8%符合中度或以上的抑鬱症狀。雖然大型語言模型（LLM）能提供一些見解，但在移除實際分數後，準確性不佳，顯示依賴PROMs可能導致精神症狀紀錄不夠全面。 PubMed DOI

Social determinants of health extraction from clinical notes across institutions using large language models.
使用大型語言模型跨機構從臨床紀錄中擷取健康社會決定因素 NPJ Digit Med 2025-05-16

這篇研究針對電子病歷中難以提取健康社會決定因素（SDoH）問題，從四家醫院建立標註資料集，涵蓋21種SDoH，並用多種模型（包含大型語言模型）進行偵測。經過指令微調的LLMs表現最佳，F1值都很高，但模型跨醫院應用仍有困難。訓練好的模型已公開在GitHub。 PubMed DOI

Large Language Models and Text Embeddings for Detecting Depression and Suicide in Patient Narratives.
大型語言模型與文本嵌入於病患敘述中偵測憂鬱與自殺的應用 JAMA Netw Open 2025-05-23

這項研究發現，大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中，準確辨識憂鬱症和自殺風險，尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估，但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

High-Throughput Phenotyping of the Symptoms of Alzheimer Disease and Related Dementias Using Large Language Models: Cross-Sectional Study.
使用大型語言模型進行阿茲海默症及相關失智症症狀的高通量表現型分析：橫斷面研究 JMIR AI 2025-06-03

研究團隊開發了一套經微調的大型語言模型，能自動從電子病歷的臨床紀錄中擷取阿茲海默症及相關失智症的7大症狀，準確度（AUROC）高達0.97-0.99，優於傳統方法。這些症狀不僅能預測失智症診斷，還和腦部MRI結果有關，有助提升診斷準確率並推動相關研究。 PubMed DOI

Improving Suicidal Ideation Detection in Social Media Posts: Topic Modeling and Synthetic Data Augmentation Approach.
提升社群媒體貼文中自殺意念偵測：主題建模與合成資料增強方法 JMIR Form Res 2025-06-11

這項研究發現，社群媒體上關於自殺的討論常忽略弱勢族群的議題。研究團隊用AI生成補足這些缺漏主題的資料，讓機器學習模型訓練更全面。結果顯示，加入這些合成資料後，模型偵測自殺意念的準確度提升，有助於打造更包容的線上自殺風險偵測工具。 PubMed DOI

Automated Insomnia Phenotyping from Electronic Health Records: Leveraging Large Language Models to Decode Clinical Narratives.
利用大型語言模型解讀臨床紀錄：自動化電子病歷中的失眠表型分析 medRxiv 2025-06-12

這項研究用大型語言模型（LLMs）自動從電子病歷的臨床紀錄辨識失眠，準確度高於傳統BERT模型（F1分數93.0和85.7）。這個方法不只偵測失眠效果好，也有潛力應用在其他容易被忽略的疾病診斷上。 PubMed DOI

原始文章

站上相關主題文章列表