這項研究評估了ChatGPT(3.5和4版本)在回答美國醫學執照考試(USMLE)風格的醫學倫理問題的表現,並與醫學知識問題進行比較。研究使用54個問題進行測試,結果顯示:
- 兩個版本在醫學倫理問題上的表現不如知識問題。
- GPT-4在倫理問題的準確率比知識問題下降18%,GPT-3.5則下降7%(差異不顯著)。
- GPT-4在倫理問題上比GPT-3.5好22%,知識問題上好33%。
- GPT-4的回答變異性較低,顯示其穩定性較佳。
這些結果強調了持續評估ChatGPT在醫學教育,特別是醫學倫理領域的必要性。
PubMed
DOI