Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

Linguistic changes in spontaneous speech for detecting Parkinson's disease using large language models.
使用大型語言模型檢測帕金森病的自發言語語言變化。 PLOS Digit Health 2025-02-10

帕金森氏症是一種影響全球超過一千萬人的神經退行性疾病，每年新增病例達一百萬。由於症狀多樣，診斷相當複雜，語言障礙可能在運動症狀前就出現，這使得語言分析成為早期檢測的有力工具。最近，大型語言模型（LLMs）的進展讓我們能夠自動識別帕金森氏症，準確率高達78%。研究顯示，這些模型能提取更相關的語言特徵，可能顯著改善診斷方法並幫助理解疾病進展。 PubMed DOI

Large language models deconstruct the clinical intuition behind diagnosing autism.
大型語言模型解構診斷自閉症的臨床直覺。 Cell 2025-03-27

最近利用全基因組檢測或腦部掃描來診斷自閉症的努力並未有明顯進展，經驗豐富的醫療專業人員的臨床直覺仍是最可靠的診斷方式。我們利用深度學習分析專家根據臨床報告的推理過程，訓練大型語言模型並微調超過4,000份健康記錄，以區分自閉症案例。研究顯示，DSM-5標準中最關鍵的診斷指標是刻板重複行為、特殊興趣和感知行為，這挑戰了目前對社交缺陷的重視，暗示診斷工具可能需修訂。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Assessing large language model performance related to aging in genetic conditions.
與遺傳性疾病老化相關之大型語言模型表現的評估 NPJ Aging 2025-05-03

研究發現，Llama-2-70b-chat 和 GPT-3.5 能生成符合年齡、合理的遺傳疾病病例描述和醫病對話，但治療計畫常常不完整或有誤。這顯示大型語言模型在臨床決策應用上，還有不少限制和改進空間。 PubMed DOI

Comparison of Large Language Model with Aphasia.
大型語言模型與失語症的比較 Adv Sci (Weinh) 2025-05-15

大型語言模型常會產生看似正確但其實錯誤的回答，這跟人類接受性失語症很像。研究發現，LLMs的內部運作和失語症患者大腦的資訊處理方式很相似，特別是在狀態轉換和停留時間上。這種分析方法未來有機會幫助改進LLMs，也可能應用在失語症診斷上。 PubMed DOI

Clinical Application of Large Language Models for Intervention Plan Development in Speech-Language Pathology.
大型語言模型於語言治療介入計畫擬定之臨床應用 Am J Speech Lang Pathol 2025-05-22

這項研究比較六種AI語言模型設計5歲兒童語言治療計畫的表現，發現AI產出的計畫品質從「需要改進」到「符合預期」都有。使用更結構化的提示能提升結果，但提供更多個案細節未必有幫助。每種AI工具各有優缺點，這些發現可作為語言治療師和教育人員負責任使用AI的參考。 PubMed DOI

High-Throughput Phenotyping of the Symptoms of Alzheimer Disease and Related Dementias Using Large Language Models: Cross-Sectional Study.
使用大型語言模型進行阿茲海默症及相關失智症症狀的高通量表現型分析：橫斷面研究 JMIR AI 2025-06-03

研究團隊開發了一套經微調的大型語言模型，能自動從電子病歷的臨床紀錄中擷取阿茲海默症及相關失智症的7大症狀，準確度（AUROC）高達0.97-0.99，優於傳統方法。這些症狀不僅能預測失智症診斷，還和腦部MRI結果有關，有助提升診斷準確率並推動相關研究。 PubMed DOI

Assessing Large Language Model Performance Related to Aging in Genetic Conditions.
與遺傳性疾病老化相關之大型語言模型表現評估 medRxiv 2025-06-26

這項研究發現，像 Llama-2-70b-chat 和 GPT-3.5 這類大型語言模型，在描述282種遺傳疾病的年齡相關特徵時表現不錯，尤其有情境提示時更佳，且沒明顯年齡偏見。不過，雖然這些模型有潛力協助臨床應用，實際使用上還是有一些限制需要注意。 PubMed DOI

Using large language models to extract information from pediatric clinical reports.
利用大型語言模型從兒科臨床報告中擷取資訊 PLOS Digit Health 2025-07-23

大部分醫療紀錄都是非結構化，讓資料分析很困難。這項研究測試九種大型語言模型，能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型，表現都很優秀，最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案，有機會取代人工處理。 PubMed DOI

原始文章

站上相關主題文章列表