原始文章

這項研究探討了不同的多模態輸入如何影響OpenAI的GPT-4視覺版(GPT-4V)在腦部MRI診斷的表現。研究選取60個具有驗證診斷的腦部MRI案例,根據影像、註解、病史和影像描述四個元素創建七個提示組。結果顯示,四個元素的組合達到最高診斷準確率69%。影像描述對準確性影響顯著,而僅依賴影像則導致低準確率。總結來說,文字描述是提升診斷表現的關鍵,病史也有助益。 PubMed DOI


站上相關主題文章列表

研究使用GPT-3.5 Turbo和GPT-4等語言模型在神經放射學案例上進行診斷,結果顯示在不同任務上有不同表現。結合案例搜尋和直接診斷可提升GPT-3.5 Turbo表現,但整體仍有改進空間,需注意模型限制。結果顯示這些模型在特定情況下可作為輔助診斷工具。 PubMed DOI

最新研究指出,ChatGPT 3.5和GPT-4在放射學診斷上表現優異。研究發現,使用不同提示影響它們對胸部放射學案例的診斷準確性。124個案例顯示,複雜提示顯著提升模型準確性。ChatGPT 3.5使用複雜提示後,準確率從25%提升至56.5%,GPT-4基準準確率為53.2%,使用複雜提示後提升至59.7%。研究強調提示工程對提升模型診斷性能的重要性。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是GPT-4 Turbo,在神經放射學的應用,針對30-50%的高誤診率進行探討。透過分析751個案例,研究發現透過提示工程和設定90%的信心閾值,GPT-4 Turbo的診斷準確率從55.1%提升至72.9%。候選診斷的正確率達85.9%,誤診率降至14.1%。雖然這些方法顯著提高了準確性,但也限制了模型的處理案例數量。未來仍需進一步研究,以優化這些策略,確保在臨床應用中的準確性與實用性。 PubMed DOI

這項研究評估了多模態人工智慧模型 GPT-4V 在解讀放射影像的表現,包括超音波、電腦斷層掃描和 X 光。分析230張急診影像後,模型在影像識別上達到100%準確率,但在解剖和病理識別上表現不佳,尤其是病理識別僅35.2%。儘管有潛力,GPT-4V 的診斷錯誤率超過40%,引發臨床使用的可靠性擔憂。研究強調需進一步開發以提升準確性,確保病人安全,並指出目前不宜作為獨立診斷工具。 PubMed DOI

這項研究評估了具備視覺功能的GPT-4(GPT-4V)在放射科考試中的表現,涵蓋文字和影像問題。研究期間為2023年9月至2024年3月,分析了386道美國放射學會的退役問題。結果顯示,GPT-4V正確回答65.3%的問題,其中文字問題得分81.5%,而影像問題僅47.8%。研究還發現,思維鏈提示對文字問題的表現較佳,但影像問題的提示效果差異不大。總體來看,GPT-4V在文字問題上表現優異,但在影像解讀上則較為薄弱。 PubMed DOI

GPT-4 Vision(GPT-4V)是多模態人工智慧的一大進步,能從圖像生成文字,無需專門訓練。這使得 ChatGPT 轉型為大型多模態模型,並在放射學中展現潛力,特別是在提升工作流程和決策支持方面。測試結果顯示,GPT-4V 能有效分類圖像、計算數量及解讀手寫文字,但在檢測骨折和解釋複雜圖表上表現不佳。雖然它在放射學任務中顯示潛力,但仍需進一步訓練以確保安全使用,並強調人類專業知識的重要性。 PubMed DOI

這項研究評估了具備視覺能力的AI模型GPT-4V在解讀放射影像的表現,並與放射科醫師及住院醫師進行比較。研究涵蓋72個放射案例,結果顯示GPT-4V的整體準確率為43%。在影像和非影像依賴的案例中,醫師的表現並未顯著優於GPT-4V。特別是,GPT-4V在僅使用文字輸入時的準確率較高(50%),而僅使用影像輸入則為38%。總體來看,GPT-4V的表現與人類相當,且未能提升人類的解讀準確性。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5和GPT-4)在根據放射學轉錄生成鑑別診斷的表現。分析了339個案例,結果顯示GPT-4的準確性較高,正確診斷比例為66.1%,而GPT-3.5為53.7%。雖然GPT-4在準確性和虛構參考文獻方面表現較佳,但兩者在重複性上仍有問題。總體來看,ChatGPT在醫學上可作為有用工具,但使用時需謹慎以避免不準確性。 PubMed DOI

這項研究評估了GPT-4在神經放射學中生成鑑別診斷的效果,並與專業神經放射科醫師進行比較。研究分析了60份報告,結果顯示GPT-4在61.7%的案例中正確包含實際診斷,而醫師的準確率在63.3%到73.3%之間。GPT-4與醫師的協議程度被評為公平到中等。雖然GPT-4在輔助放射學工作上顯示潛力,但準確性仍不及人類專家,這強調了了解其局限性的重要性。 PubMed DOI

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 PubMed DOI