A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis.
大型語言模型在回答臨床研究問題時的準確性：系統性回顧與網絡統合分析 J Med Internet Res 2025-04-30

這篇回顧分析168篇研究，發現ChatGPT-4o在選擇題最準，ChatGPT-4開放式問題表現最好，但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出，Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

Large Language Models in Medical Diagnostics: Scoping Review With Bibliometric Analysis.
醫學診斷中大型語言模型的應用：範疇性回顧與文獻計量分析 J Med Internet Res 2025-06-09

這篇綜述整理了LLMs在醫療診斷的最新應用，像是疾病分類和醫學問答，特別以GPT-4和GPT-3.5為主。雖然在放射科、精神科等領域表現不錯，但還是有偏見、隱私和法規等問題。未來要加強驗證、減少偏見、提升可解釋性，並統一法規，才能讓LLMs更安全地應用在醫療上。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

Human-AI collectives most accurately diagnose clinical vignettes.
Human-AI 協作團隊最能準確診斷臨床病歷摘要 Proc Natl Acad Sci U S A 2025-06-13

單靠大型語言模型（LLMs）做高風險決策有風險，因為它們會出現幻覺和偏誤。這項研究提出結合醫師和LLM的混合系統，分析四萬多個診斷案例後發現，醫師和LLM合作比單獨使用任何一方都更準確，因為他們各有不同的優缺點。這種混合方式能提升醫療診斷的準確率。 PubMed DOI

Risk of Bias Assessment of Diagnostic Accuracy Studies Using QUADAS 2 by Large Language Models.
利用大型語言模型以 QUADAS 2 進行診斷準確性研究偏倚風險評估 Diagnostics (Basel) 2025-06-26

這項研究比較了四款大型語言模型（如ChatGPT 4o、Grok 3等）和人類專家在評估診斷研究偏誤風險的表現。LLMs平均準確率約73%，Grok 3表現最好。雖然LLMs有潛力，但推理仍會出錯，暫時無法取代專家，只能當作輔助工具，還是需要專家監督。 PubMed DOI

Precision and Personalization: How Large Language Models Redefining Diagnostic Accuracy in Personalized Medicine - A Systematic Literature Review.
精準與個人化：大型語言模型如何重新定義個人化醫療中的診斷準確性——系統性文獻回顧 IEEE J Biomed Health Inform 2025-06-30

這篇回顧發現，大型語言模型（LLMs）在個人化醫療診斷上越來越常被應用，能提升診斷準確度並協助量身打造治療。不過，資料隱私、模型解釋性和可靠性還有待加強，未來需持續研究和建立相關保障，才能安心用在臨床上。 PubMed DOI

The performance of large language models in dentomaxillofacial radiology: a systematic review.
大型語言模型在齒顎顏面放射學的表現：系統性回顧 Dentomaxillofac Radiol 2025-08-12

這篇系統性回顧分析了大型語言模型在牙顎顏面放射學的應用，包括診斷、治療建議、考題作答和報告生成。雖然LLMs在這些任務上展現潛力，但準確率落差大（33%到92.5%），表現還不夠穩定，未來還需要更多改進和驗證，才能真正用在臨床實務上。 PubMed DOI

原始文章

站上相關主題文章列表