這項研究評估了大型語言模型(LLMs)在根據低劑量電腦斷層掃描(LDCT)報告分配Lung-RADS分數的表現。分析了242份報告,測試了四個模型:ChatGPT-3.5、ChatGPT-4o、Google Gemini和Gemini Advanced。結果顯示,ChatGPT-4o準確率最高,達83.6%,而ChatGPT-3.5為70.1%。反應時間方面,ChatGPT-3.5最快,約4秒。雖然ChatGPT-4o表現優於其他模型,但仍未達到人類放射科醫生的準確性,未來需進一步研究以提升其臨床決策的可靠性。
PubMed
DOI