這項研究評估了大型語言模型(LLMs)在放射學的表現,為期三個月,使用美國放射學會的診斷訓練考試練習題。共測試了四個模型:GPT-4、GPT-3.5、Claude 和 Google Bard。結果顯示,GPT-4 準確率最高,達 78%,其次是 Google Bard(73%)、Claude(71%)和 GPT-3.5(63%)。值得注意的是,GPT-4 的準確率隨時間下降,而 Claude 則有所提升。研究強調 LLMs 在放射學的知識豐富,但在臨床應用前需持續基準測試以確保可靠性。
PubMed
DOI