原始文章

這項研究評估了多模態人工智慧模型 GPT-4V 在解讀放射影像的表現,包括超音波、電腦斷層掃描和 X 光。分析230張急診影像後,模型在影像識別上達到100%準確率,但在解剖和病理識別上表現不佳,尤其是病理識別僅35.2%。儘管有潛力,GPT-4V 的診斷錯誤率超過40%,引發臨床使用的可靠性擔憂。研究強調需進一步開發以提升準確性,確保病人安全,並指出目前不宜作為獨立診斷工具。 PubMed DOI


站上相關主題文章列表

研究發現,比較放射科醫師和GPT-4 AI生成的放射學報告,發現兩者在質量和內容上相當,但AI報告更為簡潔,且結構稍有不同。這顯示GPT-4可能是一個可靠的工具,有助於提升臨床效率和溝通。然而,仍需解決道德問題和限制,以確保安全實施。 PubMed DOI

卷積神經網路在放射學影像解讀方面的能力越來越強。大型語言模型如GPT-3和GPT-4已在放射學考試中取得高準確率,且GPT-4表現更優。研究正探索這些人工智慧模型在臨床放射學應用的可能性。 PubMed DOI

研究評估GPT-4在放射學考試中的表現,整體準確率為58.5%,比PGY-3低、比PGY-2高。對正確答案信心高,但在影像問題表現較差。重複問題時25.5%答案不同,但準確性不變。微調未改善表現。研究強調AI模型在放射學的潛力和風險,特別提醒在影像問題上應謹慎使用。 PubMed DOI

研究評估OpenAI的GPT-4V在生成真實世界胸部X光片的放射學結果能力。透過分析100張有放射學報告的X光片,建立參考標準。結果顯示,雖然在少樣本學習中有改進,但GPT-4V在解釋真實世界X光片方面效果有限。 PubMed DOI

研究使用GPT-3.5 Turbo和GPT-4等語言模型在神經放射學案例上進行診斷,結果顯示在不同任務上有不同表現。結合案例搜尋和直接診斷可提升GPT-3.5 Turbo表現,但整體仍有改進空間,需注意模型限制。結果顯示這些模型在特定情況下可作為輔助診斷工具。 PubMed DOI

研究評估了ChatGPT-4V在解讀COVID-19、NSCLC和對照組案例的胸部CT掃描的準確性。ChatGPT-4V整體準確率為56.76%,對不同情況的敏感性和特異性有所不同。模型在所有肺葉案例中表現最佳。研究強調了AI模型在放射學中的挑戰和改進領域,呼籲加強模型以提升醫療應用的可靠性。 PubMed DOI

這項研究探討了GPT-4在協助懷疑心肌炎的醫療決策中的有效性,分析了396名患者的心臟MRI報告。結果顯示,GPT-4的準確率為83%,敏感度90%,特異度78%。其表現與一位有一年經驗的放射科醫師相當,但低於經驗更豐富的醫師。當報告中包含T1和T2映射序列時,GPT-4和人類醫師的表現都有所提升。這顯示GPT-4可能成為經驗較少醫師的有用診斷輔助工具,但仍需進一步研究以了解其潛力。 PubMed DOI

這項研究評估了GPT-4(特別是ChatGPT)在解讀腦腫瘤MRI報告的診斷能力。研究分析了150份術前病患的報告,結果顯示GPT-4的診斷準確率為73%,而神經放射科醫師則為80%。在鑑別診斷方面,GPT-4的準確率高達94%,放射科醫師則介於73%到89%之間。研究結果表明,GPT-4可作為神經放射科醫師的有用第二意見,並能成為一般放射科醫師和住院醫師的指導工具,顯示其在臨床診斷中的潛力。 PubMed DOI

這項研究評估了具備視覺功能的GPT-4(GPT-4V)在放射科考試中的表現,涵蓋文字和影像問題。研究期間為2023年9月至2024年3月,分析了386道美國放射學會的退役問題。結果顯示,GPT-4V正確回答65.3%的問題,其中文字問題得分81.5%,而影像問題僅47.8%。研究還發現,思維鏈提示對文字問題的表現較佳,但影像問題的提示效果差異不大。總體來看,GPT-4V在文字問題上表現優異,但在影像解讀上則較為薄弱。 PubMed DOI

這項研究評估了GPT-4o在歐洲放射學委員會考試中的表現,結果顯示它在選擇題和短案例問題上超過了平均放射科醫生的分數(70.2%對58.4%)。不過,在臨床推理部分,GPT-4o的得分低於平均及及格分數(52.9%對66.1%)。該模型在超聲影像問題上表現優異(87.5-100%),但在影片問題上則較差(50.6%)。整體來看,這項研究顯示大型語言模型如GPT-4o在協助放射科醫生方面的潛力。 PubMed DOI