Crafting medical MCQs with generative AI: A how-to guide on leveraging ChatGPT.
利用 ChatGPT 撰寫醫學多重選擇題：如何指南。 GMS J Med Educ 2024-05-23

本文討論如何運用人工智慧，尤其是ChatGPT，製作醫學教育的多重選擇題。探討了提示工程過程，提供了實現精準結果的見解。展示了人工智慧創造各種複雜問題的能力，並強調了審查的重要性。目的在於協助教育工作者運用人工智慧創建評估工具，徹底改變醫學教育。 PubMed DOI

ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review.
在醫學教育中產生多重選擇題的ChatGPT提示及其有效性的證據：文獻回顧。 Postgrad Med J 2024-06-06

研究發現使用ChatGPT製作醫學教育的多重選擇題有潛力，但問題有效性尚待確認。建議在考試前謹慎審查ChatGPT生成的題目，並避免盲目使用。ChatGPT可簡化測試開發，但品質仍需注意。 PubMed DOI

Artificial Intelligence as a Discriminator of Competence in Urological Training: Are we there?
人工智慧作為泌尿科訓練能力的區分者：我們到了嗎？ J Urol 2024-12-09

這項研究評估了ChatGPT在為即將畢業的泌尿科住院醫師生成多選題的有效性。結果顯示，ChatGPT生成的題目平均得分為60.7%，與考生整體考試成績相近，但只有25%的題目能有效區分高低表現者。此外，許多題目存在信息不完整、合理答案過多及不準確的問題，甚至有35%的題目提供錯誤答案。研究強調，在醫學評估中使用AI生成的問題前，必須進行仔細的審查與篩選。 PubMed DOI

Can ChatGPT generate surgical multiple-choice questions comparable to those written by a surgeon?
Yes, ChatGPT can generate surgical multiple-choice questions that are comparable to those written by a surgeon. If you provide a specific topic or area of surgery, I can create questions along with answer choices and explanations. Please let me know your preferences! Proc (Bayl Univ Med Cent) 2024-12-23

這項研究比較了ChatGPT生成的多選題與人類外科醫生創作的題目在有效性上的差異。研究對象為112名四年級醫學生，涵蓋結直腸、胃部、創傷、乳腺和甲狀腺五個主題。結果顯示，雖然在結直腸主題上兩者有正相關，但只有一題AI題目達到可接受的區分水平，而人類題目則始終達標。這顯示AI生成的題目需經人類監督，以提升教育評估的質量。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Quality assurance and validity of AI-generated single best answer questions.
AI生成的單一最佳答案問題的質量保證與有效性。 BMC Med Educ 2025-02-26

最近生成式人工智慧（AI）在醫學教育上有了新進展，特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題，經專家評估後，69%的題目經小幅修改後可用於考試。結果顯示，AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題，但仍需進行質量把關，為醫學教育提供了新的評估資源。 PubMed DOI

Use of AI (GPT-4)-generated multiple-choice questions for the examination of surgical subspecialty residents: Report of feasibility and psychometric analysis.
使用 AI (GPT-4) 生成的多選題於外科次專科住院醫師考試中的應用：可行性與心理測量分析報告。 Can Urol Assoc J 2025-03-03

這項研究探討了利用人工智慧，特別是GPT-4模型，來生成泌尿科住院醫師的多選題（MCQs）。研究者將模型結合醫療執照機構的指導方針，創造符合2023年加拿大皇家內科醫師及外科醫師學會標準的考題。從123道題中選出60道用於多倫多大學的考試，結果顯示這些題目能有效區分住院醫師的知識水平，且具良好的區辨價值。研究顯示，GPT-4等人工智慧模型能簡化多選題的創建過程，提升醫學教育的效率與成果，未來可進一步探索其應用。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

AI in radiography education: Evaluating multiple-choice questions difficulty and discrimination.
放射學教育中的人工智慧：評估多選題的難度和區分度。 J Med Imaging Radiat Sci 2025-03-29

這項研究探討AI生成的多選題（MCQs）在放射學教育中的有效性，與教職員撰寫的題目比較。研究於2024-2025學年在土耳其進行，56名一年級醫學影像學生參加了兩場考試，分別由ChatGPT和教職員編寫。結果顯示兩場考試的正確答案平均數相似，且考試成績之間有中等正相關。雖然ChatGPT生成的問題在區分度和難度上稍遜，但整體來看，AI能生成與人類專家相當的題目，顯示其在健康教育評估中的潛力。 PubMed DOI

Generative AI vs. human expertise: a comparative analysis of case-based rational pharmacotherapy question generation.
生成式人工智慧與人類專業知識：基於案例的合理藥物治療問題生成的比較分析。 Eur J Clin Pharmacol 2025-04-09

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示，這些模型生成了60個問題，並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題，結果顯示AI問題的正確率與專家問題相當，且AI生成問題的準備效率顯著提升。然而，仍有19個問題被認為無法使用，顯示專家審查的重要性。結合AI效率與專家驗證的方式，可能是改善醫學教育的最佳策略。 PubMed DOI

原始文章

站上相關主題文章列表