Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

A comparison of the diagnostic ability of large language models in challenging clinical cases.
大型語言模型在挑戰性臨床案例中的診斷能力比較。 Front Artif Intell 2024-08-20

大型語言模型（LLMs）在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現，並評估了一個新開發的評分標準。結果顯示，Gemini的表現最佳，且評分工具的可靠性高，觀察者間變異性低。研究強調不同情境下模型表現的差異，並指出在實施前需評估診斷模型的有效性，為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

Diagnostic performance of generative artificial intelligences for a series of complex case reports.
生成式人工智慧在一系列複雜病例報告中的診斷表現。 Digit Health 2024-09-04

這項研究評估了大型語言模型（LLMs）在複雜醫療案例中的診斷表現。研究分析了392份來自《美國病例報告期刊》的案例，使用了ChatGPT-4、Google Gemini和LLaMA2來生成鑑別診斷清單。結果顯示，ChatGPT-4的前10名診斷中，最終診斷納入率最高，達86.7%，其次是Google Gemini的68.6%和LLaMA2的54.6%。研究顯示ChatGPT-4在診斷準確性上明顯優於其他兩者，突顯了生成式人工智慧在醫療診斷中的潛力。 PubMed DOI

From open-ended to multiple-choice: evaluating diagnostic performance and consistency of ChatGPT, Google Gemini and Claude AI.
從開放式問題到選擇題：評估 ChatGPT、Google Gemini 和 Claude AI 的診斷表現與一致性。 Wiad Lek 2024-12-11

這項研究評估了四種大型語言模型（LLMs）在根據臨床案例診斷疾病的表現，包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段，第一階段僅使用案例描述，第二階段則加入答案選項。結果顯示，Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好，但Google Gemini的效能較低，需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

Evaluation of the Performance of Three Large Language Models in Clinical Decision Support: A Comparative Study Based on Actual Cases.
三種大型語言模型在臨床決策支持中的表現評估：基於實際案例的比較研究。 J Med Syst 2025-02-13

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示，Med-Go 的中位數得分為37.5，優於其他模型，而 Gemini 得分最低，為33.0，差異顯著（p < 0.001）。所有模型在鑑別診斷上表現較弱，但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練，以提升效能，並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

Preliminary analysis of the impact of lab results on large language model generated differential diagnoses.
實驗室結果對大型語言模型生成的鑑別診斷影響的初步分析。 NPJ Digit Med 2025-03-19

這項研究探討實驗室檢測結果對大型語言模型（LLMs）在醫學鑑別診斷（DDx）準確性的影響。研究人員從50個病例報告中創建臨床小插曲，評估了五個LLMs的表現，包括GPT-4、GPT-3.5等。結果顯示，加入實驗室數據可提高DDx準確性多達30%。其中，GPT-4表現最佳，Top 1準確率達55%，寬鬆準確率79%。特別是GPT-4和Mixtral的改進顯著，這些模型能有效解讀肝功能和代謝面板等檢測結果。 PubMed DOI

Reasoning Beyond Accuracy: Expert Evaluation of Large Language Models in Diagnostic Pathology.
超越準確性的思考：專家對大型語言模型於診斷病理學中的評估 medRxiv 2025-04-29

這項研究發現，Gemini 和 DeepSeek 在病理診斷推理上比 OpenAI 模型更有深度和邏輯性，也更常用專家級推理策略。雖然各模型正確率差不多，但在啟發式和模式識別推理上表現較弱。Gemini 和 DeepSeek 答案較一致但不夠精簡。整體來說，先進 LLMs 雖有專家級潛力，但在情境理解和啟發式推理上還有待加強，臨床應用前需再改進。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

Human-AI collectives most accurately diagnose clinical vignettes.
Human-AI 協作團隊最能準確診斷臨床病歷摘要 Proc Natl Acad Sci U S A 2025-06-13

單靠大型語言模型（LLMs）做高風險決策有風險，因為它們會出現幻覺和偏誤。這項研究提出結合醫師和LLM的混合系統，分析四萬多個診斷案例後發現，醫師和LLM合作比單獨使用任何一方都更準確，因為他們各有不同的優缺點。這種混合方式能提升醫療診斷的準確率。 PubMed DOI

原始文章

站上相關主題文章列表