Examining ChatGPT Performance on USMLE Sample Items and Implications for Assessment.
檢視 ChatGPT 在 USMLE 樣本題目上的表現及對評估的影響。 Acad Med 2024-02-09

2022年底至2023年初，有報導指出ChatGPT可能通過USMLE考試，引起了許多興奮。研究發現，ChatGPT在大多數題目上得分超過60%，但表現有些變化。它在較簡單的題目上表現較好，但在實踐學習問題上表現較差。專家的驗證至關重要，使用人工智慧需謹慎。 PubMed DOI

ChatGPT 3.5 fails to write appropriate multiple choice practice exam questions.
ChatGPT 3.5無法撰寫適當的多重選擇練習考題。 Acad Pathol 2024-02-10

AI，像ChatGPT，對傳統學術教學有影響。雖可提升教學，但人們擔心其生成教材。研究發現ChatGPT 3.5創建的多選題中，只有32%正確，有誤導性答案，需大量編輯。儘管如此，經教師審查後，AI工具可用於練習考試。 PubMed DOI

[ChatGPT is an above-average student at the Faculty of Medicine of the University of Zaragoza and an excellent collaborator in the development of teaching materials].
ChatGPT 是薩拉戈薩大學醫學院優秀的學生，並在教材開發方面是一位出色的合作者。 Rev Esp Patol 2024-04-10

人工智慧在教育領域廣泛運用，為學生和老師帶來無限可能。ChatGPT在學術考試中表現優異，得高於平均分。尤其擅長回答否定問題並修正答案，還能根據指示創造新問題。老師應善用人工智慧，有效製作評估問題。 PubMed DOI

A Comparative Analysis of ChatGPT and Medical Faculty Graduates in Medical Specialization Exams: Uncovering the Potential of Artificial Intelligence in Medical Education.
ChatGPT 與醫學院畢業生在醫學專業考試中的比較分析：揭示人工智慧在醫學教育中的潛力。 Cureus 2024-09-09

這項研究評估了ChatGPT在醫學專業考試中的表現，並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題，結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面，ChatGPT的表現相當優異，但在解剖學上則不如畢業生。研究指出，像ChatGPT這樣的AI模型能顯著提升醫學教育，提供互動支持和個性化學習，最終改善教育質量和學生成功率。 PubMed DOI

Human versus Artificial Intelligence: ChatGPT-4 Outperforming Bing, Bard, ChatGPT-3.5 and Humans in Clinical Chemistry Multiple-Choice Questions.
人類與人工智慧：ChatGPT-4 在臨床化學多選題中超越 Bing、Bard、ChatGPT-3.5 及人類。 Adv Med Educ Pract 2024-09-25

這項研究比較了AI聊天機器人（如ChatGPT-4、Bing和Bard）與醫學研究生在臨床化學多選題的表現。結果顯示，ChatGPT-4的平均得分為0.90，超過學生的0.68，其他AI的得分分別為0.77、0.73和0.67。研究指出，AI在記憶和理解的表現較佳，但在應用和分析上則較弱。雖然ChatGPT-4表現優秀，但也引發了對學術誠信及多選題使用的擔憂，值得重新思考其在高等教育中的適用性。 PubMed DOI

Artificial Intelligence as a Discriminator of Competence in Urological Training: Are we there?
人工智慧作為泌尿科訓練能力的區分者：我們到了嗎？ J Urol 2024-12-09

這項研究評估了ChatGPT在為即將畢業的泌尿科住院醫師生成多選題的有效性。結果顯示，ChatGPT生成的題目平均得分為60.7%，與考生整體考試成績相近，但只有25%的題目能有效區分高低表現者。此外，許多題目存在信息不完整、合理答案過多及不準確的問題，甚至有35%的題目提供錯誤答案。研究強調，在醫學評估中使用AI生成的問題前，必須進行仔細的審查與篩選。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

AI versus human-generated multiple-choice questions for medical education: a cohort study in a high-stakes examination.
醫學教育中 AI 與人類生成的多選題比較：一項高風險考試的隊列研究。 BMC Med Educ 2025-02-08

這項研究評估了ChatGPT-4o在生成高品質多選題（MCQs）的效果，並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生，回答了兩組各100題的MCQs。主要發現包括：AI生成的題目較容易，且兩組題目的區分能力相似，但AI題目中有更多不準確及不適當的內容，且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。結論指出，雖然ChatGPT-4o能有效生成MCQs，但在深度上仍不足，強調人類審核的重要性，結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

Challenging the curve: can ChatGPT-generated MCQs reduce grade inflation in pharmacy education.
挑戰曲線：ChatGPT 生成的多選題能否減少藥學教育中的成績膨脹。 Front Pharmacol 2025-02-13

這項研究探討AI生成的多選題（MCQs）對沙烏地阿拉伯某大學藥學管理課程考試的影響，並分析成績膨脹問題。研究比較了2024年使用ChatGPT生成的考題與2023年人類生成的考題。結果顯示，2024年考試的可靠性較高，題目難度分佈更佳，學生得分顯著較低，且鑑別指數提升，顯示學生表現區分度改善。這表明AI生成的考題能增強考試的嚴謹性，並可能減緩成績膨脹，但仍需審查內容以確保準確性。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

原始文章

站上相關主題文章列表