這項研究評估了四個大型語言模型(LLMs),包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考題進行測試。結果顯示,GPT-4o 的正確回答中位數為 63.1%,表現最佳,其次是 GPT-4 Turbo(60.7%)、GPT-4(56.8%)和 Gemini(40.5%)。雖然 GPT-4o 在文字題上表現優異,但在醫學影像解讀方面仍需改進。研究建議這些模型可在臨床環境中協助醫生,特別是處理文字相關問題時。
PubMed
DOI