ChatGPT for generating multiple-choice questions: Evidence on the use of artificial intelligence in automatic item generation for a rational pharmacotherapy exam.
使用 ChatGPT 生成多重選擇題：人工智慧在合理藥物治療考試中自動生成題目的證據。 Eur J Clin Pharmacol 2024-02-14

這項研究探討了使用ChatGPT來為醫學生生成以案例為基礎的多重選擇題。所創建的問題被納入醫學院考試中，顯示出合理的難度和區分度水平。研究結果表明，ChatGPT在考試開發方面具有潛力，但需要進一步研究以增強外部效度。 PubMed DOI

Crafting medical MCQs with generative AI: A how-to guide on leveraging ChatGPT.
利用 ChatGPT 撰寫醫學多重選擇題：如何指南。 GMS J Med Educ 2024-05-23

本文討論如何運用人工智慧，尤其是ChatGPT，製作醫學教育的多重選擇題。探討了提示工程過程，提供了實現精準結果的見解。展示了人工智慧創造各種複雜問題的能力，並強調了審查的重要性。目的在於協助教育工作者運用人工智慧創建評估工具，徹底改變醫學教育。 PubMed DOI

ChatGPT as a teaching tool: Preparing pathology residents for board examination with AI-generated digestive system pathology tests.
ChatGPT作為教學工具：利用AI生成的消化系統病理學測驗，幫助病理學住院醫師準備考試。 Am J Clin Pathol 2024-05-25

研究評估了ChatGPT 4在生成消化系統病理學考試的效果，結果顯示內容準確性高，但認知水平和干擾項質量有待改進。病理學住院醫師平均得分57.4％，不同年級表現有差異。考試難度中等，具有效區分度和內部一致性。ChatGPT 4可作為教育工具，但內容質量仍需加強。 PubMed DOI

Artificial Intelligence as a Discriminator of Competence in Urological Training: Are we there?
人工智慧作為泌尿科訓練能力的區分者：我們到了嗎？ J Urol 2024-12-09

這項研究評估了ChatGPT在為即將畢業的泌尿科住院醫師生成多選題的有效性。結果顯示，ChatGPT生成的題目平均得分為60.7%，與考生整體考試成績相近，但只有25%的題目能有效區分高低表現者。此外，許多題目存在信息不完整、合理答案過多及不準確的問題，甚至有35%的題目提供錯誤答案。研究強調，在醫學評估中使用AI生成的問題前，必須進行仔細的審查與篩選。 PubMed DOI

Can ChatGPT generate surgical multiple-choice questions comparable to those written by a surgeon?
Yes, ChatGPT can generate surgical multiple-choice questions that are comparable to those written by a surgeon. If you provide a specific topic or area of surgery, I can create questions along with answer choices and explanations. Please let me know your preferences! Proc (Bayl Univ Med Cent) 2024-12-23

這項研究比較了ChatGPT生成的多選題與人類外科醫生創作的題目在有效性上的差異。研究對象為112名四年級醫學生，涵蓋結直腸、胃部、創傷、乳腺和甲狀腺五個主題。結果顯示，雖然在結直腸主題上兩者有正相關，但只有一題AI題目達到可接受的區分水平，而人類題目則始終達標。這顯示AI生成的題目需經人類監督，以提升教育評估的質量。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

AI versus human-generated multiple-choice questions for medical education: a cohort study in a high-stakes examination.
醫學教育中 AI 與人類生成的多選題比較：一項高風險考試的隊列研究。 BMC Med Educ 2025-02-08

這項研究評估了ChatGPT-4o在生成高品質多選題（MCQs）的效果，並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生，回答了兩組各100題的MCQs。主要發現包括：AI生成的題目較容易，且兩組題目的區分能力相似，但AI題目中有更多不準確及不適當的內容，且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。結論指出，雖然ChatGPT-4o能有效生成MCQs，但在深度上仍不足，強調人類審核的重要性，結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

Analyzing Question Characteristics Influencing ChatGPT's Performance in 3000 USMLE®-Style Questions.
分析影響 ChatGPT 在 3000 道 USMLE® 風格問題中表現的問題特徵。 Med Sci Educ 2025-03-27

這項研究評估了ChatGPT在回答美國醫學執照考試第二階段臨床知識問題的表現，分析了其在不同醫學專科、問題類型和難度上的準確性。總共評估了3,000道問題，結果顯示正確率為57.7%。在「男性生殖系統」類別中準確率最高（71.7%），而「免疫系統」最低（46.3%）。隨著問題難度和長度增加，表現下降，顯示較複雜問題更易錯誤。整體而言，ChatGPT的能力接近及格門檻，顯示其作為醫學生輔助學習工具的潛力，並強調了精煉AI模型和設計抗AI考題的重要性。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

AI in radiography education: Evaluating multiple-choice questions difficulty and discrimination.
放射學教育中的人工智慧：評估多選題的難度和區分度。 J Med Imaging Radiat Sci 2025-03-29

這項研究探討AI生成的多選題（MCQs）在放射學教育中的有效性，與教職員撰寫的題目比較。研究於2024-2025學年在土耳其進行，56名一年級醫學影像學生參加了兩場考試，分別由ChatGPT和教職員編寫。結果顯示兩場考試的正確答案平均數相似，且考試成績之間有中等正相關。雖然ChatGPT生成的問題在區分度和難度上稍遜，但整體來看，AI能生成與人類專家相當的題目，顯示其在健康教育評估中的潛力。 PubMed DOI

原始文章

站上相關主題文章列表