這項研究評估了三個大型語言模型(LLMs)在家庭醫學住院醫師訓練考試中的表現,使用了2022年的193道選擇題。結果顯示,ChatGPT 4.0 獲得167分(86.5%),標準化分數730,顯示出100%通過專科考試的機會。相比之下,ChatGPT 3.5 和 Google Bard 的得分較低,分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示,ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。
PubMed
DOI
♡