這項研究評估了大型語言模型(LLMs),特別是OpenAI的GPT-4 1106和Google的Bard Gemini Pro,在影像醫學問題上的表現。分析1,070個來自AMBOSS平台的問題後,發現GPT-4 1106的準確率為56.9%,高於Bard的44.6%。不過,GPT-4 1106未回答的問題比例較高,達16.1%。若只看已回答的問題,GPT-4 1106的準確率提升至67.8%。兩者在德語表現優於英語,學生的準確率達94.5%,顯著超越這兩個AI模型。研究顯示,這些LLMs在醫學教育中有潛力,但仍需優化以應對多語言環境的挑戰。
PubMed
DOI