Benchmarking the diagnostic performance of open source LLMs in 1933 Eurorad case reports.
1933年Eurorad病例報告中開源LLMs診斷性能的基準評估。 NPJ Digit Med 2025-02-11

最近大型語言模型（LLMs）在放射診斷方面的進展顯著，無論是開源還是專有模型，都能透過本地或雲端部署來解決隱私問題。研究評估了十五個開源LLMs和一個封閉源LLM（GPT-4o）的診斷表現，使用了1,933個來自Eurorad的案例。結果顯示，GPT-4o的表現最佳，其次是Llama-3-70B，顯示開源模型的表現逐漸接近專有模型，顯示其在放射鑑別診斷中的潛力。 PubMed DOI

Consistent Performance of GPT-4o in Rare Disease Diagnosis Across Nine Languages and 4967 Cases.
GPT-4o 在九種語言和 4967 例罕見疾病診斷中的一致表現。 medRxiv 2025-03-10

大型語言模型（LLMs）如GPT-4o在醫療應用，特別是鑑別診斷方面展現潛力。研究人員創建了4,967個臨床案例，涵蓋378種遺傳疾病，並翻譯HPO術語，生成多語言提示。結果顯示，GPT-4o在英語中正確識別排名第一的診斷達19.8%，而在八種非英語語言中，正確率介於16.9%到20.5%之間。這顯示該模型在非英語臨床環境中的應用潛力，並得到多方支持，推進LLMs在醫療領域的合作努力。 PubMed DOI

Preliminary analysis of the impact of lab results on large language model generated differential diagnoses.
實驗室結果對大型語言模型生成的鑑別診斷影響的初步分析。 NPJ Digit Med 2025-03-19

這項研究探討實驗室檢測結果對大型語言模型（LLMs）在醫學鑑別診斷（DDx）準確性的影響。研究人員從50個病例報告中創建臨床小插曲，評估了五個LLMs的表現，包括GPT-4、GPT-3.5等。結果顯示，加入實驗室數據可提高DDx準確性多達30%。其中，GPT-4表現最佳，Top 1準確率達55%，寬鬆準確率79%。特別是GPT-4和Mixtral的改進顯著，這些模型能有效解讀肝功能和代謝面板等檢測結果。 PubMed DOI

Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning.
DeepSeek 大型語言模型在醫學任務與臨床推理上的比較性基準評估 Nat Med 2025-04-23

DeepSeek-R1 是新推出的大型語言模型，醫學任務表現比 Llama 3.1-405B 好，USMLE 題目略輸 ChatGPT-o1，病例推理和腫瘤分類則差不多。診斷推理步驟準確度更高，但影像報告摘要品質還不如 ChatGPT-o1。整體來說，DeepSeek-R1 在醫療領域很有潛力，但還有進步空間。 PubMed DOI

Benchmark evaluation of DeepSeek large language models in clinical decision-making.
DeepSeek 大型語言模型於臨床決策中的基準評估 Nat Med 2025-04-23

DeepSeek-V3 和 DeepSeek-R1 這類開源大型語言模型，在臨床決策支援上表現不輸甚至超越 GPT-4o、Gemini-2.0 等專有模型。最大優勢是能在本地安全微調，符合醫療隱私規範，非常適合台灣醫療現場應用。 PubMed DOI

A comparison of performance of DeepSeek-R1 model-generated responses to musculoskeletal radiology queries against ChatGPT-4 and ChatGPT-4o - A feasibility study.
DeepSeek-R1 模型在肌肉骨骼放射學問題回應表現與 ChatGPT-4 及 ChatGPT-4o 之比較－一項可行性研究 Clin Imaging 2025-05-17

這項研究發現，ChatGPT-4 和 4o 在回答肌肉骨骼放射學問題時，表現比 DeepSeek R1 好很多，答案更準確、結構清楚，參考資料也比較可靠。特別是針對最新研究，ChatGPT-4o 最值得信賴；相較之下，DeepSeek R1 常出錯，還會給假資料，還需要再加強。 PubMed DOI

A large language model improves clinicians' diagnostic performance in complex critical illness cases.
大型語言模型提升臨床醫師在複雜重症病例中的診斷表現 Crit Care 2025-06-06

這項研究發現，DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症，讓診斷正確率從 27% 提升到 58%，AI 自己的正確率則是 60%。有 AI 幫忙時，住院醫師不只診斷更準確，速度也更快，鑑別診斷品質也提升。整體來說，這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

GPT-4 vs. Radiologists: who advances mediastinal tumor classification better across report quality levels? A cohort study.
GPT-4 vs. 放射科醫師：誰能在不同報告品質層級下更好地推進縱膈腫瘤分類？一項世代研究 Int J Surg 2025-08-11

這項研究發現，GPT-4在判讀胸部CT報告、分類縱膈腫瘤的準確率達73.3%，跟資深放射科醫師差不多。特別是在報告品質較差或診斷淋巴瘤時，GPT-4表現甚至更好。顯示GPT-4未來有機會協助醫師處理較難或資訊不足的病例。 PubMed DOI

原始文章

站上相關主題文章列表