這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示,這些模型生成了60個問題,並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題,結果顯示AI問題的正確率與專家問題相當,且AI生成問題的準備效率顯著提升。然而,仍有19個問題被認為無法使用,顯示專家審查的重要性。結合AI效率與專家驗證的方式,可能是改善醫學教育的最佳策略。
PubMed
DOI