AI versus human-generated multiple-choice questions for medical education: a cohort study in a high-stakes examination.
醫學教育中 AI 與人類生成的多選題比較：一項高風險考試的隊列研究。 BMC Med Educ 2025-02-08

這項研究評估了ChatGPT-4o在生成高品質多選題（MCQs）的效果，並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生，回答了兩組各100題的MCQs。主要發現包括：AI生成的題目較容易，且兩組題目的區分能力相似，但AI題目中有更多不準確及不適當的內容，且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。結論指出，雖然ChatGPT-4o能有效生成MCQs，但在深度上仍不足，強調人類審核的重要性，結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

Can ChatGPT Generate Acceptable Case-Based Multiple-Choice Questions for Medical School Anatomy Exams? A Pilot Study on Item Difficulty and Discrimination.
ChatGPT 能否生成適合醫學院解剖學考試的案例型選擇題？一項關於題目難度和區分度的初步研究。 Clin Anat 2025-03-25

這項研究探討了ChatGPT在生成高品質的案例導向解剖學多選題（MCQs）的有效性，特別針對內分泌和泌尿生殖系統。研究使用結構化框架進行AI輔助題目生成，經專家評估後在502名二年級醫學生中測試。結果顯示，生成的題目在區分高低表現學生方面有效，且大多數題目難度適中，適合醫學考試。研究指出，ChatGPT是醫學教育者的有用工具，但人類專業知識仍然重要，以確保題目質量。未來可探討AI在其他解剖學主題的題目生成能力。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

QUEST-AI: A System for Question Generation, Verification, and Refinement using AI for USMLE-Style Exams.
QUEST-AI：用於USMLE風格考試的AI題目生成、驗證與優化系統 Pac Symp Biocomput 2025-04-29

這篇研究介紹 QUEST-AI 系統，利用大型語言模型自動產生、審查和修正 USMLE 醫學考題。經醫師和醫學生測試，多數 AI 出的題目都很合格，且難以分辨是否由人類撰寫。這技術有望讓醫學考題製作更快速、便宜又方便。 PubMed DOI

Evaluating the Accuracy and Reliability of Large Language Models (ChatGPT, Claude, DeepSeek, Gemini, Grok, and Le Chat) in Answering Item-Analyzed Multiple-Choice Questions on Blood Physiology.
大型語言模型（ChatGPT、Claude、DeepSeek、Gemini、Grok 及 Le Chat）在回答血液生理學題項分析選擇題時之準確性與可靠性評估 Cureus 2025-05-09

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現，結果以Claude最優（正確率95%），DeepSeek和Grok次之（93%），ChatGPT（90%）、Gemini（88%），Le Chat最低（70%）。題目難度和品質對結果沒明顯影響。整體來說，這些AI工具，尤其是Claude、DeepSeek和Grok，能當作醫學教育的輔助，但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

Can ChatGPT-4o Really Pass Medical Science Exams? A Pragmatic Analysis Using Novel Questions.
ChatGPT-4o 真的能通過醫學科學考試嗎？以新穎試題進行的實用性分析 Med Sci Educ 2025-05-12

ChatGPT-4o 在英美醫師執照考試表現亮眼，即使遇到全新題目也能高分，證明不是只靠背題庫。不過，遇到圖片型選項時表現就變差。這說明單靠出新題或圖片題，無法完全防堵 AI 作弊，還是得有嚴格監考和安全措施，才能確保考試公平。 PubMed DOI

GPT-4 versus human authors in clinically complex MCQ creation: A blinded analysis of item quality.
GPT-4 與人類作者在臨床複雜選擇題命題上的比較：題目品質的盲性分析 Med Teach 2025-05-29

研究發現，GPT-4產生的醫學選擇題品質大致接近專家水準，但錯誤率較高，像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目，仍需專家審核把關，確保正確性與品質。 PubMed DOI

The utility of generative artificial intelligence Chatbot (ChatGPT) in generating teaching and learning material for anesthesiology residents.
生成式人工智慧聊天機器人（ChatGPT）在產生麻醉科住院醫師教學與學習教材上的實用性 Front Artif Intell 2025-06-05

研究發現，ChatGPT雖然常能正確回答初階麻醉學問題，但有時會出現重大錯誤，像是引用錯誤、混淆概念或受偏見影響。這些錯誤若發生在臨床上，可能會有風險。因此，ChatGPT的答案沒經專家審查前，不適合直接用在醫學教育。 PubMed DOI

LLM-based generation of USMLE-style questions with ASPET/AMSPC knowledge objectives: All RAGs and no riches.
基於LLM的USMLE風格題目生成，結合ASPET/AMSPC知識目標：只有RAGs，沒有收穫 Br J Clin Pharmacol 2025-06-08

這項研究發現，ChatGPT-4o能有效產生高品質的藥理學選擇題，不論有無RAG輔助，題目品質都差不多。雖然非RAG生成的正確率稍高，但差異不大。整體來說，AI能幫忙出題，但專家人工審查還是很重要，不能完全取代。 PubMed DOI

Evaluating and leveraging large language models in clinical pharmacology and therapeutics assessment: From exam takers to exam shapers.
在臨床藥理學與治療學評估中評價與應用大型語言模型：從考生到考題設計者 Br J Clin Pharmacol 2025-06-10

最新研究發現，像 ChatGPT-4 Omni 這類大型語言模型，在 CPT 和歐洲處方考試的表現跟醫學生差不多，甚至更厲害，特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方，不只適合當教學工具，也有助於改進考題品質。 PubMed DOI

原始文章

站上相關主題文章列表