這項研究評估了不同人工智慧聊天機器人在心臟科專科考試中的表現,並與人類研究員進行比較。研究使用了88道選擇題,結果顯示所有36名研究員都通過考試,且中位數準確率高達98%。相比之下,聊天機器人的表現參差不齊,只有Jasper quality達到最低通過率73%。大多數聊天機器人的Top-1準確率僅47%,Top-2為67%。只有Jasper quality和ChatGPT plus 4.0通過考試。結果顯示,現階段的聊天機器人在醫學考試中表現不佳,但未來可能會有改進的潛力。
PubMed
DOI