這項研究評估了四個大型語言模型(LLMs)在腫瘤學知識的表現,使用土耳其醫學腫瘤學會的考試問題。測試的模型包括Claude 3.5 Sonnet、ChatGPT 4o、Llama-3和Gemini 1.5,共分析790道選擇題。Claude 3.5 Sonnet表現最佳,所有考試通過,平均得分77.6%;ChatGPT 4o通過七場考試,得分67.8%。Llama-3和Gemini 1.5表現較差,得分均低於50%。研究顯示,這些模型需定期更新,以保持腫瘤學教育的相關性。總體而言,先進的LLMs在該領域有潛力,但仍需持續改進。
PubMed
DOI
♡