Humans Continue to Outperform Large Language Models in Complex Clinical Decision-Making: A Study with Medical Calculators.
人類在複雜臨床決策中持續超越大型語言模型：一項使用醫療計算器的研究。 ArXiv 2025-01-13

這項研究評估了大型語言模型（LLMs）和醫學實習生在臨床決策中推薦醫學計算器的能力。研究測試了八種LLMs，使用1,009個與臨床相關的問答。表現最佳的LLM，GPT-4o，準確率為74.3%，而人類標註者的平均準確率為79.5%。分析顯示，LLMs在理解和計算器知識上有困難，顯示人類在複雜臨床任務中仍優於LLMs。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

A Review of Large Language Models in Medical Education, Clinical Decision Support, and Healthcare Administration.
大型語言模型在醫學教育、臨床決策支持和醫療管理中的綜述。 Healthcare (Basel) 2025-03-28

大型語言模型（LLMs）在醫療保健中展現出顯著潛力，能增強醫學教育、臨床決策支持及醫療管理。文獻回顧顯示，LLMs可作為虛擬病人和個性化導師，並在醫學知識評估中超越初級實習生。在臨床決策中，它們協助診斷和治療建議，但效果因專科而異。此外，LLMs能自動化臨床筆記和報告生成，減輕醫療人員的負擔。然而，仍需解決幻覺、偏見及病人隱私等挑戰。未來的整合需謹慎，並強調倫理與合作。 PubMed DOI

Reasoning Beyond Accuracy: Expert Evaluation of Large Language Models in Diagnostic Pathology.
超越準確性的思考：專家對大型語言模型於診斷病理學中的評估 medRxiv 2025-04-29

這項研究發現，Gemini 和 DeepSeek 在病理診斷推理上比 OpenAI 模型更有深度和邏輯性，也更常用專家級推理策略。雖然各模型正確率差不多，但在啟發式和模式識別推理上表現較弱。Gemini 和 DeepSeek 答案較一致但不夠精簡。整體來說，先進 LLMs 雖有專家級潛力，但在情境理解和啟發式推理上還有待加強，臨床應用前需再改進。 PubMed DOI

Evaluating large language and large reasoning models as decision support tools in emergency internal medicine.
將標題「Evaluating large language and large reasoning models as decision support tools in emergency internal medicine.」翻譯為繁體中文(zh-TW)如下：「評估大型語言模型與大型推理模型作為急診內科決策支援工具的應用」 Comput Biol Med 2025-05-13

最新研究發現，OpenAI 的 o1 LLM 在急診臨床決策上表現跟醫師差不多，診斷和收治判斷準確率都超過九成，甚至在異常檢驗判讀上還拿到滿分。相比之下，Claude-3.5-Sonnet 和 Llama-3.2-70B 在治療計畫上表現較弱。整體來說，o1 有機會成為急診醫療現場的專業決策輔助工具。 PubMed DOI

Benchmarking the Confidence of Large Language Models in Answering Clinical Questions: Cross-Sectional Evaluation Study.
大型語言模型在回答臨床問題時信心的基準評估：橫斷面評估研究 JMIR Med Inform 2025-05-16

這項研究發現，12款大型語言模型在醫學選擇題的信心判斷表現不佳，表現差的模型反而更自信，表現好的模型則無論答對答錯信心都差不多。這顯示目前LLM在臨床應用上還不夠可靠，未來必須加強信心校準並加入人工監督，才能安全用於醫療領域。 PubMed DOI

Large Language Models in Medicine: Clinical Applications, Technical Challenges, and Ethical Considerations.
醫學中的大型語言模型：臨床應用、技術挑戰與倫理考量 Healthc Inform Res 2025-05-19

大型語言模型在醫療文件撰寫和決策輔助上很有潛力，但因準確性、驗證、偏見和隱私等問題，現階段還不適合完全自動化臨床應用。未來要安全有效導入，需加強研究、訂定明確規範，並維持人工監督。 PubMed DOI

Performance of large language models on family medicine licensing exams.
大型語言模型在家庭醫學執照考試中的表現 Fam Pract 2025-06-09

這項研究發現，多款主流大型語言模型在以色列基層醫療執照考試中表現不錯，尤其用結構化和範例提示時更明顯。最佳模型分數高達 85.5%，解釋也多半正確有邏輯，但偶爾還是會出現捏造資訊。雖然 LLM 在家庭醫學考試很有潛力，但還無法取代臨床技能或與病人互動。未來應加強減少幻覺、檢查偏誤及提升實務應用。 PubMed DOI

Evaluating Large Language Models on American Board of Anesthesiology-style Anesthesiology Questions: Accuracy, Domain Consistency, and Clinical Implications.
以美國麻醉科醫學會（American Board of Anesthesiology）風格麻醉學試題評估大型語言模型：準確性、領域一致性與臨床意涵 J Cardiothorac Vasc Anesth 2025-06-15

五款主流大型語言模型（如ChatGPT-4、Gemini等）在麻醉學考題測試中都拿到高分，彼此表現差不多，顯示未來有望協助醫學教育和臨床決策。不過，還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI

原始文章

站上相關主題文章列表