這項研究評估了多模態大型語言模型(LLMs)在解讀放射影像的準確性,並與不同經驗的人類讀者進行比較。研究回顧了272個案例,使用了如GPT-4 Omni等LLMs,並收集了初任教職放射科醫師、臨床醫師和醫學生的回應。
主要發現包括:GPT-4 Omni的準確率為59.6%,超過醫學生的47.1%,但仍低於初任教職的80.9%和訓練中的放射科醫師的70.2%。LLMs在較長文本輸入下表現較佳,顯示文本長度對準確性有顯著影響。總體來說,LLMs的準確性不錯,但仍需注意文本長度的影響。
PubMed
DOI