原始文章

這項研究評估了具備視覺功能的GPT-4(GPT-4V)在放射科考試中的表現,涵蓋文字和影像問題。研究期間為2023年9月至2024年3月,分析了386道美國放射學會的退役問題。結果顯示,GPT-4V正確回答65.3%的問題,其中文字問題得分81.5%,而影像問題僅47.8%。研究還發現,思維鏈提示對文字問題的表現較佳,但影像問題的提示效果差異不大。總體來看,GPT-4V在文字問題上表現優異,但在影像解讀上則較為薄弱。 PubMed DOI


站上相關主題文章列表

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示,基於GPT-4的ChatGPT準確率為43%,優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師,但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現,強調提供詳細影像描述以提高準確性。 PubMed DOI

這項研究評估了ChatGPT-4 Vision在解讀臨床影像(如X光、CT、MRI等)的表現。分析了206個影像研究,結果顯示提供臨床上下文能顯著提高診斷準確率,從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時,準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%,但GPT-4V仍虛構了258個發現,並錯誤識別了65個案例。總體來看,GPT-4V目前無法可靠解讀放射影像,需進一步改進以確保病人安全。 PubMed DOI

這項研究評估了GPT-4和GPT-4o在識別需進一步評估的胸部放射線報告的效果。研究分析了來自NIH的100個案例,結果顯示GPT-4o在敏感性、準確性和陰性預測值上均優於GPT-4,而GPT-4在特異性和陽性預測值上則表現更佳。總體來看,GPT-4o在臨床應用中顯示出良好的潛力。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究探討了不同的多模態輸入如何影響OpenAI的GPT-4視覺版(GPT-4V)在腦部MRI診斷的表現。研究選取60個具有驗證診斷的腦部MRI案例,根據影像、註解、病史和影像描述四個元素創建七個提示組。結果顯示,四個元素的組合達到最高診斷準確率69%。影像描述對準確性影響顯著,而僅依賴影像則導致低準確率。總結來說,文字描述是提升診斷表現的關鍵,病史也有助益。 PubMed DOI

最近的研究顯示,GPT-4V在醫學影像的解讀上有不錯的潛力,尤其在美國醫學執照考試中表現優異,Step 1得分84.2%、Step 2 85.7%、Step 3 88.9%。不過,雖然正確答案的解釋質量接近人類專家,但錯誤答案的解釋常常不準確,顯示出明顯的弱點。模型在處理複雜案例時也面臨挑戰,需要多次提示才能給出準確解釋。因此,在將GPT-4V應用於臨床前,仍需進一步評估其影像解釋能力。 PubMed DOI

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現,並與人類考生進行比較。2024年10月,42名考生與26名使用GPT-4o的醫學生比較,結果顯示GPT-4o平均得分82.1%,遠高於考生的49.4%(p < 0.0001)。GPT-4o在放射學各子專科的真陽性率較高,假陽性率較低,僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美,而考生則中等。調查顯示參與者普遍使用複製和粘貼功能,73%的人尋求澄清。總體而言,GPT-4o在低階問題上表現優於人類考生,顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 PubMed DOI

這項研究發現,ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好,尤其在影像型題目上較突出,但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯,但影像判讀還有進步空間,顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

這項研究發現,GPT-4o在放射科考題(含純文字和影像題)表現比GPT-4 Turbo更好。影像題方面,兩者和一年級住院醫師差不多,但不如資深住院醫師;純文字題則都勝過所有住院醫師。不論題目是韓文還是英文,兩款模型表現都很穩定。 PubMed DOI

這項研究比較GPT-4、GPT-4V和GPT-4o三種AI在眼科診斷題的表現,發現多模態的GPT-4o準確率最高(77.1%),明顯優於其他模型,也比一般大眾好。結果顯示,結合圖片能大幅提升AI診斷能力,多模態AI在醫療應用上很有潛力。 PubMed DOI