A generalist medical language model for disease diagnosis assistance.
一個通用醫學語言模型用於疾病診斷輔助。 Nat Med 2025-01-08

準確的診斷對醫療保健至關重要，因為它是適時治療的基礎。雖然大型語言模型（LLMs）在學習上表現出色，但在臨床診斷的有效性仍需驗證。我們推出了MedFound，這是一個擁有1760億參數的醫療語言模型，經過大量醫療文本和臨床記錄的預訓練。透過自我引導和思維鏈方法，我們提升了其診斷推理能力。實驗結果顯示，MedFound在多種情境下表現優於其他模型，並能有效輔助醫生進行疾病診斷。 PubMed DOI

Multiple large language models versus experienced physicians in diagnosing challenging cases with gastrointestinal symptoms.
多個大型語言模型與經驗豐富的醫生在診斷具有挑戰性的腸胃症狀病例中的比較。 NPJ Digit Med 2025-02-05

這項研究比較了大型語言模型（LLMs）與人類腸胃科醫生在挑戰性腸胃病例中的診斷能力。研究分析了67個病例，發現LLM Claude 3.5 Sonnet的準確率達76.1%，明顯高於腸胃科醫生的45.5%。這顯示先進的LLMs能成為腸胃科醫生的有力工具，提供高效且具成本效益的診斷支持。 PubMed DOI

Evaluating Large Language Model Performance to Support the Diagnosis and Management of Patients with Primary Immune Disorders.
評估大型語言模型在支持原發性免疫疾病患者診斷和管理中的表現。 J Allergy Clin Immunol 2025-02-16

生成式人工智慧（GAI）在醫療領域有顯著進展，但對於罕見疾病如原發性免疫疾病（PI）的輔助效果仍待探討。本研究評估了六種大型語言模型（LLMs）在提供PI臨床指導的表現。結果顯示，GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%，其中GPT-4o以96.2%領先。其他模型表現較差，準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力，但仍需改進以提升臨床實用性。 PubMed DOI

Human-AI collaboration in large language model-assisted brain MRI differential diagnosis: a usability study.
大型語言模型輔助腦部 MRI 鑑別診斷中的人類與 AI 協作：一項可用性研究。 Eur Radiol 2025-03-07

這項研究探討人類與大型語言模型（LLMs）合作對腦部MRI掃描診斷準確性和效率的影響。研究中，六名放射科住院醫師評估40個挑戰性MRI案例，分別使用傳統網路搜尋和LLM輔助搜尋。結果顯示，LLM輔助的診斷準確率為61.4%，高於傳統的46.5%，且差異具統計意義。不過，解讀時間和信心水平未見變化。研究指出的挑戰包括案例描述不準確、LLM的幻覺現象及上下文不足。雖然LLM能提升診斷準確性，但仍需進一步研究以優化人類與LLM的合作。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Towards conversational diagnostic artificial intelligence.
朝向對話式診斷人工智慧。 Nature 2025-04-09

這項研究介紹了AMIE（Articulate Medical Intelligence Explorer），一個專為醫學診斷對話設計的AI系統。AMIE透過自我對弈學習，提升在各種醫療情況下的表現。在一項隨機雙盲研究中，AMIE與初級保健醫生進行評估，結果顯示其診斷準確性超越醫生。不過，研究也指出使用同步文字聊天的限制，這在臨床上不常見。雖然前景看好，但AMIE在實際醫療環境中的應用仍需進一步研究。 PubMed DOI

Comparing Diagnostic Accuracy of Clinical Professionals and Large Language Models: Systematic Review and Meta-Analysis.
臨床專業人員與大型語言模型診斷準確度之比較：系統性回顧與統合分析 JMIR Med Inform 2025-04-25

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究，發現LLM診斷準確率雖不錯，但多數研究有偏誤，且準確度還不及醫師。不過，若小心運用，未來LLM有望成為醫療智慧助理。 PubMed DOI

Dedicated AI Expert System vs Generative AI With Large Language Model for Clinical Diagnoses.
專用 AI 專家系統與大型語言模型生成式 AI 在臨床診斷上的比較 JAMA Netw Open 2025-05-29

這項研究比較 ChatGPT-4、Gemini 1.5 和傳統診斷系統 DXplain，在36個臨床案例中測試有無檢驗數據的表現。沒檢驗數據時，DXplain雖然正確診斷次數較多，但差異不顯著。有檢驗數據後，三者表現都提升。研究建議結合 LLMs 的語言理解和 DDSS 的推理能力，有望提升診斷支援效果。 PubMed DOI

A large language model improves clinicians' diagnostic performance in complex critical illness cases.
大型語言模型提升臨床醫師在複雜重症病例中的診斷表現 Crit Care 2025-06-06

這項研究發現，DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症，讓診斷正確率從 27% 提升到 58%，AI 自己的正確率則是 60%。有 AI 幫忙時，住院醫師不只診斷更準確，速度也更快，鑑別診斷品質也提升。整體來說，這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

原始文章

站上相關主題文章列表