原始文章

這項研究評估了具備視覺功能的GPT-4(GPT-4V)在放射科考試中的表現,涵蓋文字和影像問題。研究期間為2023年9月至2024年3月,分析了386道美國放射學會的退役問題。結果顯示,GPT-4V正確回答65.3%的問題,其中文字問題得分81.5%,而影像問題僅47.8%。研究還發現,思維鏈提示對文字問題的表現較佳,但影像問題的提示效果差異不大。總體來看,GPT-4V在文字問題上表現優異,但在影像解讀上則較為薄弱。 PubMed DOI


站上相關主題文章列表

卷積神經網路在放射學影像解讀方面的能力越來越強。大型語言模型如GPT-3和GPT-4已在放射學考試中取得高準確率,且GPT-4表現更優。研究正探索這些人工智慧模型在臨床放射學應用的可能性。 PubMed DOI

這項研究評估了GPT-4 Vision (GPT-4V)在回答腎臟病理問題方面的表現,並與腎臟病學培訓醫生進行比較。結果顯示,與培訓醫生相比,GPT-4V的準確性較低,尤其在基於影像的問題上表現不佳。GPT-4V在影像解讀方面遇到困難,顯示在這個領域仍有改進的空間。 PubMed DOI

研究評估GPT-4在放射學考試中的表現,整體準確率為58.5%,比PGY-3低、比PGY-2高。對正確答案信心高,但在影像問題表現較差。重複問題時25.5%答案不同,但準確性不變。微調未改善表現。研究強調AI模型在放射學的潛力和風險,特別提醒在影像問題上應謹慎使用。 PubMed DOI

這項研究顯示,使用來自北美放射學會案例收集的207個案例、1312張影像的數據集,GPT-4V在分析不同放射學專業領域的放射學案例時表現優於GPT-4。 PubMed DOI

研究評估OpenAI的GPT-4V在生成真實世界胸部X光片的放射學結果能力。透過分析100張有放射學報告的X光片,建立參考標準。結果顯示,雖然在少樣本學習中有改進,但GPT-4V在解釋真實世界X光片方面效果有限。 PubMed DOI

研究比較了處理文字和圖像輸入的GPT-4 Turbo with Vision(GPT-4TV)與僅處理文字輸入的GPT-4 Turbo(GPT-4 T)在回答日本放射診斷醫學會考試(JDRBE)問題的表現。結果顯示,兩者準確度差不多,但放射科醫師對GPT-4TV的可信度較低。總結來說,加入圖像輸入的GPT-4TV對於JDRBE問題的回答並沒有明顯提升。 PubMed DOI

這項研究評估了ChatGPT-4在類似ARRT認證考試的練習題上的表現,使用了200道選擇題,總共進行了3000次測試。整體準確率為80.56%,文字型問題表現較佳(86.3%),影像型問題則較差(45.6%),且影像問題的回答時間較長。不同領域的表現差異明顯,安全性72.6%、影像製作70.6%、病人護理67.3%、程序53.4%。研究顯示ChatGPT-4在ARRT題庫上表現不錯,但仍需進一步研究與實際考試結果的關聯,影像處理的進步對教育應用也很重要。 PubMed DOI

這項研究評估了ChatGPT-4o在模擬歐洲介入放射學委員會(EBIR)考試的表現,正確率達67.0%。GPT-4o還為醫學生和EBIR考生生成不同難度的考題。四位參與者的表現顯示,醫學生在學生級別考題得分46.0%,EBIR持有者在學生級別得74.0%。所有參與者對學生級別考題的正確回答率在82.0%至92.0%之間,顯示其訓練效果良好,且僅有0.3%的考題被認為不合理。總體來看,GPT-4o在模擬EBIR考試及生成考題方面表現出色。 PubMed DOI

這項研究評估了多模態人工智慧模型 GPT-4V 在解讀放射影像的表現,包括超音波、電腦斷層掃描和 X 光。分析230張急診影像後,模型在影像識別上達到100%準確率,但在解剖和病理識別上表現不佳,尤其是病理識別僅35.2%。儘管有潛力,GPT-4V 的診斷錯誤率超過40%,引發臨床使用的可靠性擔憂。研究強調需進一步開發以提升準確性,確保病人安全,並指出目前不宜作為獨立診斷工具。 PubMed DOI

這項研究評估了GPT-4o在歐洲放射學委員會考試中的表現,結果顯示它在選擇題和短案例問題上超過了平均放射科醫生的分數(70.2%對58.4%)。不過,在臨床推理部分,GPT-4o的得分低於平均及及格分數(52.9%對66.1%)。該模型在超聲影像問題上表現優異(87.5-100%),但在影片問題上則較差(50.6%)。整體來看,這項研究顯示大型語言模型如GPT-4o在協助放射科醫生方面的潛力。 PubMed DOI