原始文章

這項研究探討人類與大型語言模型(LLMs)合作對腦部MRI掃描診斷準確性和效率的影響。研究中,六名放射科住院醫師評估40個挑戰性MRI案例,分別使用傳統網路搜尋和LLM輔助搜尋。結果顯示,LLM輔助的診斷準確率為61.4%,高於傳統的46.5%,且差異具統計意義。不過,解讀時間和信心水平未見變化。研究指出的挑戰包括案例描述不準確、LLM的幻覺現象及上下文不足。雖然LLM能提升診斷準確性,但仍需進一步研究以優化人類與LLM的合作。 PubMed DOI


站上相關主題文章列表

研究測試了精細調校的大型語言模型(LLM)在分類腦部磁振造影報告的效能。LLM表現高準確、敏感,且處理速度快,比人類放射科醫師更有效。結果顯示LLM在醫學影像分析上有潛力,與專業醫師相當。 PubMed DOI

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 PubMed DOI

這項研究評估大型語言模型(LLMs)在檢測和修正MRI伪影的表現,並與放射科醫生進行比較。研究分為三個階段: 1. 第一階段中,六個LLMs和五位放射科醫生回答42個文本問題,LLMs表現優於醫生,ChatGPT o1-preview得分最高。 2. 第二階段,放射科醫生評估100張含伪影的MRI影像,醫生的表現明顯優於LLMs,資深醫生準確率高。 3. 第三階段在1.5個月後重新評估,檢查回應一致性。 結果顯示,LLMs在文本任務中表現佳,但在視覺解釋上仍有挑戰,建議作為教育工具或輔助系統使用。 PubMed DOI

大型語言模型(LLMs)如ChatGPT、Llama和Claude,正在改變醫療保健,特別是在放射科。最近,弗賴堡和巴塞爾大學醫院的研究顯示,這些系統能有效整合影像存檔與傳輸系統(PACS)和電子健康紀錄(EHR),提升醫師效率,縮短報告時間,並自動化例行任務。研究結果顯示,LLMs不僅提高了診斷質量,還促進了跨學科合作。未來應著重增強透明度和擴大應用範圍,確保遵守倫理和法律標準。 PubMed DOI

這項研究介紹了Articulate Medical Intelligence Explorer (AMIE),一個大型語言模型,旨在提升醫療診斷推理。研究評估AMIE在生成鑑別診斷的有效性,並與傳統方法比較。二十位臨床醫師針對302個複雜案例進行評估,結果顯示AMIE的準確率達59.1%,遠超過未經協助的醫師33.6%。使用AMIE的醫師準確率為51.7%,也高於僅依賴傳統資源的醫師。這些結果顯示AMIE有潛力提升診斷準確性,並強調在真實環境中進一步評估的必要性。 PubMed DOI

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究,發現LLM診斷準確率雖不錯,但多數研究有偏誤,且準確度還不及醫師。不過,若小心運用,未來LLM有望成為醫療智慧助理。 PubMed DOI

這項研究發現,ChatGPT-4o在診斷肝臟局部病灶時,表現大致和資淺放射科醫師差不多,但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程,也沒明顯提升醫師的診斷表現。總結來說,目前大型語言模型對診斷這類疾病的幫助有限,準確度還有待加強。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

這項研究發現,DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症,讓診斷正確率從 27% 提升到 58%,AI 自己的正確率則是 60%。有 AI 幫忙時,住院醫師不只診斷更準確,速度也更快,鑑別診斷品質也提升。整體來說,這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

單靠大型語言模型(LLMs)做高風險決策有風險,因為它們會出現幻覺和偏誤。這項研究提出結合醫師和LLM的混合系統,分析四萬多個診斷案例後發現,醫師和LLM合作比單獨使用任何一方都更準確,因為他們各有不同的優缺點。這種混合方式能提升醫療診斷的準確率。 PubMed DOI