這項研究評估了31個大型語言模型(LLMs)在葡萄牙語醫學知識測試中的表現,特別針對巴西國家醫學考試進行分析。比較了23個開源模型和8個專有模型在399道選擇題上的表現。結果顯示,Llama 3 8B的成功率最高為53.9%,而Mixtral 8×7B達63.7%。較大的模型如Llama 3 70B成功率為77.5%。專有模型GPT-4o和Claude Opus表現優異,分別得86.8%和83.8%。有10個模型在Revalida測試中超越人類,但9個模型在提供連貫答案上有困難。整體來看,較大的模型表現較佳,但某些中型模型也表現不俗。
PubMed
DOI
♡