The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study.
GPT-3 人工智慧模型的診斷與分流準確性：一項觀察性研究。 Lancet Digit Health 2024-07-26

這項研究評估了AI語言模型GPT-3在診斷和分診的表現，並與一般人和醫生進行比較，使用了48個醫療案例。結果顯示，GPT-3在88%的案例中準確診斷，優於一般人（54%），但低於醫生（96%）。在分診準確性方面，GPT-3達70%，接近一般人（74%），但仍低於醫生（91%）。雖然GPT-3對預測的信心合理，但在急迫案例中準確性下降，偶爾會將緊急案例降為次要。總體而言，GPT-3的診斷表現不錯，但分診效果仍不如醫生。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

Physician clinical decision modification and bias assessment in a randomized controlled trial of AI assistance.
醫師臨床決策修改與偏見評估：一項AI輔助的隨機對照試驗。 Commun Med (Lond) 2025-03-04

這項研究探討了人工智慧（AI）輔助對醫生在胸痛分診中的決策影響，特別是人口統計偏見。50位美國醫師觀看白人男性或黑人女性病人的視頻，並在接受GPT-4建議前後回答臨床問題。結果顯示，AI輔助使白人男性病人的決策準確率從47%提升至65%，黑人女性則從63%提升至80%，改善幅度均為18%。研究未加劇偏見，顯示AI能提升決策並確保公平醫療。90%的醫生認為AI未來將在臨床決策中扮演重要角色，顯示其解決不平等問題的潛力。 PubMed DOI

Human-AI collaboration in large language model-assisted brain MRI differential diagnosis: a usability study.
大型語言模型輔助腦部 MRI 鑑別診斷中的人類與 AI 協作：一項可用性研究。 Eur Radiol 2025-03-07

這項研究探討人類與大型語言模型（LLMs）合作對腦部MRI掃描診斷準確性和效率的影響。研究中，六名放射科住院醫師評估40個挑戰性MRI案例，分別使用傳統網路搜尋和LLM輔助搜尋。結果顯示，LLM輔助的診斷準確率為61.4%，高於傳統的46.5%，且差異具統計意義。不過，解讀時間和信心水平未見變化。研究指出的挑戰包括案例描述不準確、LLM的幻覺現象及上下文不足。雖然LLM能提升診斷準確性，但仍需進一步研究以優化人類與LLM的合作。 PubMed DOI

Towards conversational diagnostic artificial intelligence.
朝向對話式診斷人工智慧。 Nature 2025-04-09

這項研究介紹了AMIE（Articulate Medical Intelligence Explorer），一個專為醫學診斷對話設計的AI系統。AMIE透過自我對弈學習，提升在各種醫療情況下的表現。在一項隨機雙盲研究中，AMIE與初級保健醫生進行評估，結果顯示其診斷準確性超越醫生。不過，研究也指出使用同步文字聊天的限制，這在臨床上不常見。雖然前景看好，但AMIE在實際醫療環境中的應用仍需進一步研究。 PubMed DOI

Comparing Diagnostic Accuracy of Clinical Professionals and Large Language Models: Systematic Review and Meta-Analysis.
臨床專業人員與大型語言模型診斷準確度之比較：系統性回顧與統合分析 JMIR Med Inform 2025-04-25

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究，發現LLM診斷準確率雖不錯，但多數研究有偏誤，且準確度還不及醫師。不過，若小心運用，未來LLM有望成為醫療智慧助理。 PubMed DOI

A large language model improves clinicians' diagnostic performance in complex critical illness cases.
大型語言模型提升臨床醫師在複雜重症病例中的診斷表現 Crit Care 2025-06-06

這項研究發現，DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症，讓診斷正確率從 27% 提升到 58%，AI 自己的正確率則是 60%。有 AI 幫忙時，住院醫師不只診斷更準確，速度也更快，鑑別診斷品質也提升。整體來說，這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

Human-AI collectives most accurately diagnose clinical vignettes.
Human-AI 協作團隊最能準確診斷臨床病歷摘要 Proc Natl Acad Sci U S A 2025-06-13

單靠大型語言模型（LLMs）做高風險決策有風險，因為它們會出現幻覺和偏誤。這項研究提出結合醫師和LLM的混合系統，分析四萬多個診斷案例後發現，醫師和LLM合作比單獨使用任何一方都更準確，因為他們各有不同的優缺點。這種混合方式能提升醫療診斷的準確率。 PubMed DOI

The PERFORM Study: Artificial Intelligence Versus Human Residents in Cross-Sectional Obstetrics-Gynecology Scenarios Across Languages and Time Constraints.
PERFORM 研究：人工智慧與人類住院醫師在跨語言及時間限制下橫斷面產科-婦科情境的比較 Mayo Clin Proc Digit Health 2025-06-26

這項研究發現，AI大型語言模型在婦產科診斷上，整體表現比住院醫師更好，尤其在時間壓力大或不同語言時更明顯。最強的AI模型診斷準確率高達88%，而住院醫師平均只有65%，且年資越高表現越好。AI對資淺醫師幫助最大，能大幅提升診斷正確率。整體來說，AI有助於提升婦產科訓練和臨床診斷的準確性與穩定性。 PubMed DOI

The Diagnostic Performance of Large Language Models and Oral Medicine Consultants for Identifying Oral Lesions in Text-Based Clinical Scenarios: Prospective Comparative Study.
大型語言模型與口腔醫學專科醫師在文字型臨床情境中辨識口腔病變的診斷表現：前瞻性比較研究 JMIR AI 2025-07-03

研究發現，ChatGPT在診斷50個口腔病灶案例時，準確度和專業醫師差不多，表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷，尤其是ChatGPT表現最突出。 PubMed DOI

原始文章

站上相關主題文章列表