這項研究評估了三個人工智慧模型—ChatGPT-3.5、ChatGPT-4 和 Google Bard—在物理醫學與復健考試題目的表現。使用美國物理醫學與復健委員會的 PMR100 題庫,結果顯示 ChatGPT-4 表現最佳,成功率達 74%,其次是 Google Bard 的 66% 和 ChatGPT-3.5 的 63.8%。Bard 在回答一致性方面表現良好,僅有 1% 的回答改變。研究強調了人工智慧在醫學教育和臨床應用中的潛力,並指出需對其回答進行仔細監督,以確保病人安全。
PubMed
DOI