原始文章

這項研究介紹了Articulate Medical Intelligence Explorer (AMIE),一個大型語言模型,旨在提升醫療診斷推理。研究評估AMIE在生成鑑別診斷的有效性,並與傳統方法比較。二十位臨床醫師針對302個複雜案例進行評估,結果顯示AMIE的準確率達59.1%,遠超過未經協助的醫師33.6%。使用AMIE的醫師準確率為51.7%,也高於僅依賴傳統資源的醫師。這些結果顯示AMIE有潛力提升診斷準確性,並強調在真實環境中進一步評估的必要性。 PubMed DOI


站上相關主題文章列表

準確的診斷對醫療保健至關重要,因為它是適時治療的基礎。雖然大型語言模型(LLMs)在學習上表現出色,但在臨床診斷的有效性仍需驗證。我們推出了MedFound,這是一個擁有1760億參數的醫療語言模型,經過大量醫療文本和臨床記錄的預訓練。透過自我引導和思維鏈方法,我們提升了其診斷推理能力。實驗結果顯示,MedFound在多種情境下表現優於其他模型,並能有效輔助醫生進行疾病診斷。 PubMed DOI

這項研究比較了大型語言模型(LLMs)與人類腸胃科醫生在挑戰性腸胃病例中的診斷能力。研究分析了67個病例,發現LLM Claude 3.5 Sonnet的準確率達76.1%,明顯高於腸胃科醫生的45.5%。這顯示先進的LLMs能成為腸胃科醫生的有力工具,提供高效且具成本效益的診斷支持。 PubMed DOI

生成式人工智慧(GAI)在醫療領域有顯著進展,但對於罕見疾病如原發性免疫疾病(PI)的輔助效果仍待探討。本研究評估了六種大型語言模型(LLMs)在提供PI臨床指導的表現。結果顯示,GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%,其中GPT-4o以96.2%領先。其他模型表現較差,準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力,但仍需改進以提升臨床實用性。 PubMed DOI

這項研究探討人類與大型語言模型(LLMs)合作對腦部MRI掃描診斷準確性和效率的影響。研究中,六名放射科住院醫師評估40個挑戰性MRI案例,分別使用傳統網路搜尋和LLM輔助搜尋。結果顯示,LLM輔助的診斷準確率為61.4%,高於傳統的46.5%,且差異具統計意義。不過,解讀時間和信心水平未見變化。研究指出的挑戰包括案例描述不準確、LLM的幻覺現象及上下文不足。雖然LLM能提升診斷準確性,但仍需進一步研究以優化人類與LLM的合作。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這項研究介紹了AMIE(Articulate Medical Intelligence Explorer),一個專為醫學診斷對話設計的AI系統。AMIE透過自我對弈學習,提升在各種醫療情況下的表現。在一項隨機雙盲研究中,AMIE與初級保健醫生進行評估,結果顯示其診斷準確性超越醫生。不過,研究也指出使用同步文字聊天的限制,這在臨床上不常見。雖然前景看好,但AMIE在實際醫療環境中的應用仍需進一步研究。 PubMed DOI

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究,發現LLM診斷準確率雖不錯,但多數研究有偏誤,且準確度還不及醫師。不過,若小心運用,未來LLM有望成為醫療智慧助理。 PubMed DOI

這項研究比較 ChatGPT-4、Gemini 1.5 和傳統診斷系統 DXplain,在36個臨床案例中測試有無檢驗數據的表現。沒檢驗數據時,DXplain雖然正確診斷次數較多,但差異不顯著。有檢驗數據後,三者表現都提升。研究建議結合 LLMs 的語言理解和 DDSS 的推理能力,有望提升診斷支援效果。 PubMed DOI

這項研究發現,DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症,讓診斷正確率從 27% 提升到 58%,AI 自己的正確率則是 60%。有 AI 幫忙時,住院醫師不只診斷更準確,速度也更快,鑑別診斷品質也提升。整體來說,這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

這項研究比較了多款主流大型語言模型(如Claude、GPT、Gemini)在臨床診斷上的表現。結果顯示,這些AI在常見病例的診斷準確率都超過九成,Claude 3.7甚至有滿分表現;在複雜案例中,Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調,未來應把AI工具實際整合進臨床與醫學教育,提升照護品質。 PubMed DOI