AI versus human-generated multiple-choice questions for medical education: a cohort study in a high-stakes examination.
醫學教育中 AI 與人類生成的多選題比較：一項高風險考試的隊列研究。 BMC Med Educ 2025-02-08

這項研究評估了ChatGPT-4o在生成高品質多選題（MCQs）的效果，並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生，回答了兩組各100題的MCQs。主要發現包括：AI生成的題目較容易，且兩組題目的區分能力相似，但AI題目中有更多不準確及不適當的內容，且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。結論指出，雖然ChatGPT-4o能有效生成MCQs，但在深度上仍不足，強調人類審核的重要性，結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

Quality assurance and validity of AI-generated single best answer questions.
AI生成的單一最佳答案問題的質量保證與有效性。 BMC Med Educ 2025-02-26

最近生成式人工智慧（AI）在醫學教育上有了新進展，特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題，經專家評估後，69%的題目經小幅修改後可用於考試。結果顯示，AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題，但仍需進行質量把關，為醫學教育提供了新的評估資源。 PubMed DOI

Enhancing Medical Education through LLM: Integration of Generative GPT for Assessment and Feedback.
透過 LLM 增強醫學教育：整合生成式 GPT 進行評估與回饋。 Med Sci Educ 2025-03-27

這項研究建立了一個自訂的GPT-3.5模型，用來評估一年級物理治療學生的解剖學作業，並將其表現與專業領域的專家進行比較。結果顯示，人工智慧的評分可以減輕工作負擔，同時確保評估的一致性和高品質。這表明人工智慧有潛力提升醫學教育的效率和個性化。 PubMed DOI

QUEST-AI: A System for Question Generation, Verification, and Refinement using AI for USMLE-Style Exams.
QUEST-AI：用於USMLE風格考試的AI題目生成、驗證與優化系統 Pac Symp Biocomput 2025-04-29

這篇研究介紹 QUEST-AI 系統，利用大型語言模型自動產生、審查和修正 USMLE 醫學考題。經醫師和醫學生測試，多數 AI 出的題目都很合格，且難以分辨是否由人類撰寫。這技術有望讓醫學考題製作更快速、便宜又方便。 PubMed DOI

Is AI the future of evaluation in medical education?? AI vs. human evaluation in objective structured clinical examination.
AI會是醫學教育評量的未來嗎？AI與人類在客觀結構式臨床考試（Objective Structured Clinical Examination, OSCE）中的評估比較 BMC Med Educ 2025-05-01

這項研究發現，AI（如ChatGPT-4o、Gemini Flash 1.5）在OSCE臨床技能評分上，給分普遍比人工評分高且更一致，尤其在視覺技能（像打針、打結）表現較佳。但遇到需要聽力或口語判斷的項目時，AI的評分準確度就比較差。整體來說，AI有潛力輔助OSCE評分，但針對溝通或聲音技能還需加強。 PubMed DOI

Automating Evaluation of AI Text Generation in Healthcare with a Large Language Model (LLM)-as-a-Judge.
以大型語言模型（LLM）作為評審自動化評估醫療領域 AI 文字生成 medRxiv 2025-05-02

本研究提出用大型語言模型（LLM）自動評估AI生成的電子健康紀錄（EHR）摘要，效果和專家評分高度一致，尤其是像GPT-3這類模型。這種方法省時又可靠，有助於確保醫療AI摘要的品質與安全性，適合大規模應用。 PubMed DOI

Using large language models (LLMs) to apply analytic rubrics to score post-encounter notes.
使用大型語言模型（LLMs）應用分析性評分規準於後診紀錄評分 Med Teach 2025-05-17

這項研究發現，大型語言模型（LLMs）在有明確、結構化提示下，能準確且一致地評分醫學生臨床紀錄，但如果只給簡單指示，結果會不穩定。LLM有時會算錯總分，需要外部協助。整體來說，經過優化後，LLM有潛力成為醫學教育自動評分工具，但針對更複雜的評分系統還需進一步研究。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

A comparison of the psychometric properties of GPT-4 versus human novice and expert authors of clinically complex MCQs in a mock examination of Australian medical students.
GPT-4 與人類新手及專家作者在澳洲醫學生模擬考試中臨床複雜選擇題心理計量特性的比較 Med Teach 2025-06-12

研究發現，AI產生的醫學選擇題在難度和鑑別度上跟人類寫的差不多，整體品質也很高。不過，AI出的干擾選項效果比新手差一點，但跟專家差不多。總結來說，AI能出不錯的題目，但還是需要人類幫忙審查，才能讓選項更有品質。 PubMed DOI

Assessment of Large Language Model Performance on Medical School Essay-Style Concept Appraisal Questions: Exploratory Study.
大型語言模型在醫學院論述型概念評量題表現之評估：探索性研究 JMIR Med Educ 2025-06-16

Microsoft Copilot（原本叫 Bing Chat）用的是 GPT-4 技術，寫申論題的表現跟醫學生差不多，評分老師常常分不出 AI 和真人寫的差別。這代表未來 AI 影響下，學生和老師都更需要加強批判性思考和反思能力。 PubMed DOI

原始文章

站上相關主題文章列表