原始文章

這項研究找來70位醫師,測試專為醫師協作設計的GPT AI診斷系統。無論是AI先診斷還是醫師先診斷,協作後的正確率都比傳統工具高(85%和82%對75%),和單純AI診斷(90%)差不多。結果顯示,協作型AI能有效提升診斷準確率,也促進醫師與AI的合作。 PubMed DOI


站上相關主題文章列表

這項研究評估了AI語言模型GPT-3在診斷和分診的表現,並與一般人和醫生進行比較,使用了48個醫療案例。結果顯示,GPT-3在88%的案例中準確診斷,優於一般人(54%),但低於醫生(96%)。在分診準確性方面,GPT-3達70%,接近一般人(74%),但仍低於醫生(91%)。雖然GPT-3對預測的信心合理,但在急迫案例中準確性下降,偶爾會將緊急案例降為次要。總體而言,GPT-3的診斷表現不錯,但分診效果仍不如醫生。 PubMed DOI

這項研究評估了多模態人工智慧模型在NEJM影像挑戰中的表現,並與人類集體智慧進行比較。結果顯示,人工智慧在臨床診斷上有潛力,但也有其限制。Anthropic的Claude 3系列在準確性上超越了人類平均水平,但人類集體決策的表現仍優於所有人工智慧模型。此外,GPT-4 Vision Preview在較簡單問題上反應更有效,特別是對小圖像和長文字的問題。 PubMed DOI

這項研究探討了生成式人工智慧(如ChatGPT)在遠距醫療中,特別是心臟驟停情境下的應用。研究比較了傳統紙本指南、自主ChatGPT和受監督ChatGPT的有效性。結果顯示,受監督的ChatGPT在決策準確性上明顯優於其他兩者,雖然完成情境的時間較長。生理數據顯示其認知負荷較低,且在臨床醫師監督下,對AI系統的信任度最高。研究強調臨床醫師監督的重要性,並建議未來應優化AI的監督機制。 PubMed DOI

本研究探討AI模型(如GPT-3.5和GPT-4)在急診科生成病症鑑別診斷的表現,並與急診科醫師的準確性進行比較。結果顯示,ChatGPT-4的準確率為85.5%,略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面,ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值,建議未來進一步探索AI在醫療中的應用。 PubMed DOI

這項研究探討了人工智慧(AI)輔助對醫生在胸痛分診中的決策影響,特別是人口統計偏見。50位美國醫師觀看白人男性或黑人女性病人的視頻,並在接受GPT-4建議前後回答臨床問題。結果顯示,AI輔助使白人男性病人的決策準確率從47%提升至65%,黑人女性則從63%提升至80%,改善幅度均為18%。研究未加劇偏見,顯示AI能提升決策並確保公平醫療。90%的醫生認為AI未來將在臨床決策中扮演重要角色,顯示其解決不平等問題的潛力。 PubMed DOI

這項研究探討人類與大型語言模型(LLMs)合作對腦部MRI掃描診斷準確性和效率的影響。研究中,六名放射科住院醫師評估40個挑戰性MRI案例,分別使用傳統網路搜尋和LLM輔助搜尋。結果顯示,LLM輔助的診斷準確率為61.4%,高於傳統的46.5%,且差異具統計意義。不過,解讀時間和信心水平未見變化。研究指出的挑戰包括案例描述不準確、LLM的幻覺現象及上下文不足。雖然LLM能提升診斷準確性,但仍需進一步研究以優化人類與LLM的合作。 PubMed DOI

這項研究介紹了AMIE(Articulate Medical Intelligence Explorer),一個專為醫學診斷對話設計的AI系統。AMIE透過自我對弈學習,提升在各種醫療情況下的表現。在一項隨機雙盲研究中,AMIE與初級保健醫生進行評估,結果顯示其診斷準確性超越醫生。不過,研究也指出使用同步文字聊天的限制,這在臨床上不常見。雖然前景看好,但AMIE在實際醫療環境中的應用仍需進一步研究。 PubMed DOI

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究,發現LLM診斷準確率雖不錯,但多數研究有偏誤,且準確度還不及醫師。不過,若小心運用,未來LLM有望成為醫療智慧助理。 PubMed DOI

這項研究發現,DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症,讓診斷正確率從 27% 提升到 58%,AI 自己的正確率則是 60%。有 AI 幫忙時,住院醫師不只診斷更準確,速度也更快,鑑別診斷品質也提升。整體來說,這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

單靠大型語言模型(LLMs)做高風險決策有風險,因為它們會出現幻覺和偏誤。這項研究提出結合醫師和LLM的混合系統,分析四萬多個診斷案例後發現,醫師和LLM合作比單獨使用任何一方都更準確,因為他們各有不同的優缺點。這種混合方式能提升醫療診斷的準確率。 PubMed DOI