Using large language models (ChatGPT, Copilot, PaLM, Bard, and Gemini) in Gross Anatomy course: Comparative analysis.
在大體解剖課程中使用大型語言模型（ChatGPT、Copilot、PaLM、Bard 和 Gemini）：比較分析。 Clin Anat 2024-11-22

這項研究評估了六個生成式人工智慧大型語言模型（LLMs）在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示，ChatGPT-4的準確率最高，達60.5%，其次是Copilot（42.0%）和ChatGPT-3.5（41.0%）。雖然這些模型尚未能完全取代解剖學教育者，但它們在醫學教育中仍具備實用價值。 PubMed DOI

QUEST-AI: A System for Question Generation, Verification, and Refinement using AI for USMLE-Style Exams.
QUEST-AI：一個使用 AI 進行問題生成、驗證和精煉的系統，適用於 USMLE 風格的考試。 Pac Symp Biocomput 2024-12-13

這項研究介紹了QUEST-AI系統，利用大型語言模型（如GPT-4）來生成、評估和修正美國醫學執照考試（USMLE）的考題。考量到製作醫學考試內容的高成本與耗時，這種創新方法旨在簡化流程。研究人員創建了100道考題，並與醫生和醫學生進行評估。結果顯示，大多數LLM生成的考題被認為有效，且與人類生成的考題表現相關性強。這項技術在醫學教育中的應用，可能提升USMLE考試準備的效率與可及性。 PubMed DOI

AI versus human-generated multiple-choice questions for medical education: a cohort study in a high-stakes examination.
醫學教育中 AI 與人類生成的多選題比較：一項高風險考試的隊列研究。 BMC Med Educ 2025-02-08

這項研究評估了ChatGPT-4o在生成高品質多選題（MCQs）的效果，並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生，回答了兩組各100題的MCQs。主要發現包括：AI生成的題目較容易，且兩組題目的區分能力相似，但AI題目中有更多不準確及不適當的內容，且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。結論指出，雖然ChatGPT-4o能有效生成MCQs，但在深度上仍不足，強調人類審核的重要性，結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

Quality assurance and validity of AI-generated single best answer questions.
AI生成的單一最佳答案問題的質量保證與有效性。 BMC Med Educ 2025-02-26

最近生成式人工智慧（AI）在醫學教育上有了新進展，特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題，經專家評估後，69%的題目經小幅修改後可用於考試。結果顯示，AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題，但仍需進行質量把關，為醫學教育提供了新的評估資源。 PubMed DOI

Use of AI (GPT-4)-generated multiple-choice questions for the examination of surgical subspecialty residents: Report of feasibility and psychometric analysis.
使用 AI (GPT-4) 生成的多選題於外科次專科住院醫師考試中的應用：可行性與心理測量分析報告。 Can Urol Assoc J 2025-03-03

這項研究探討了利用人工智慧，特別是GPT-4模型，來生成泌尿科住院醫師的多選題（MCQs）。研究者將模型結合醫療執照機構的指導方針，創造符合2023年加拿大皇家內科醫師及外科醫師學會標準的考題。從123道題中選出60道用於多倫多大學的考試，結果顯示這些題目能有效區分住院醫師的知識水平，且具良好的區辨價值。研究顯示，GPT-4等人工智慧模型能簡化多選題的創建過程，提升醫學教育的效率與成果，未來可進一步探索其應用。 PubMed DOI

GPT-4 generated answer rationales to multiple choice assessment questions in undergraduate medical education.
GPT-4 生成的本科醫學教育多選評估問題的答案理由。 BMC Med Educ 2025-03-04

這項研究探討了GPT-4在醫學教育中生成臨床案例多選題（MCQs）答案理由的效果。2023年8月，預科醫學生的課程主任評估了AI生成的80道題目，結果顯示GPT-4的正確率高達93.8%。課程主任認為這些理由大多準確（77.5%）、清晰（83.8%）且適當（93.8%），88.3%的理由幾乎不需修改。大多數主任對使用GPT-4持開放態度，審閱時間普遍在四分鐘內。研究結果顯示GPT-4可作為醫學教育的有效工具，未來將探討學生反饋及技術整合。 PubMed DOI

Can ChatGPT Generate Acceptable Case-Based Multiple-Choice Questions for Medical School Anatomy Exams? A Pilot Study on Item Difficulty and Discrimination.
ChatGPT 能否生成適合醫學院解剖學考試的案例型選擇題？一項關於題目難度和區分度的初步研究。 Clin Anat 2025-03-25

這項研究探討了ChatGPT在生成高品質的案例導向解剖學多選題（MCQs）的有效性，特別針對內分泌和泌尿生殖系統。研究使用結構化框架進行AI輔助題目生成，經專家評估後在502名二年級醫學生中測試。結果顯示，生成的題目在區分高低表現學生方面有效，且大多數題目難度適中，適合醫學考試。研究指出，ChatGPT是醫學教育者的有用工具，但人類專業知識仍然重要，以確保題目質量。未來可探討AI在其他解剖學主題的題目生成能力。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

GPT-4 versus human authors in clinically complex MCQ creation: A blinded analysis of item quality.
GPT-4 與人類作者在臨床複雜選擇題命題上的比較：題目品質的盲性分析 Med Teach 2025-05-29

研究發現，GPT-4產生的醫學選擇題品質大致接近專家水準，但錯誤率較高，像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目，仍需專家審核把關，確保正確性與品質。 PubMed DOI

Performance of ChatGPT-3.5 and ChatGPT-4 in Solving Questions Based on Core Concepts in Cardiovascular Physiology.
ChatGPT-3.5 與 ChatGPT-4 在解答心血管生理核心概念相關問題的表現 Cureus 2025-06-06

這項研究發現，ChatGPT-4在回答心血管生理學選擇題時，正確率（83.33%）明顯高於ChatGPT-3.5（60%），而且解釋也更清楚。不過，AI的答案還是需要專業老師把關，醫學教育用AI時要特別小心。 PubMed DOI

原始文章

站上相關主題文章列表