Human versus Artificial Intelligence: ChatGPT-4 Outperforming Bing, Bard, ChatGPT-3.5 and Humans in Clinical Chemistry Multiple-Choice Questions.
人類與人工智慧：ChatGPT-4 在臨床化學多選題中超越 Bing、Bard、ChatGPT-3.5 及人類。 Adv Med Educ Pract 2024-09-25

這項研究比較了AI聊天機器人（如ChatGPT-4、Bing和Bard）與醫學研究生在臨床化學多選題的表現。結果顯示，ChatGPT-4的平均得分為0.90，超過學生的0.68，其他AI的得分分別為0.77、0.73和0.67。研究指出，AI在記憶和理解的表現較佳，但在應用和分析上則較弱。雖然ChatGPT-4表現優秀，但也引發了對學術誠信及多選題使用的擔憂，值得重新思考其在高等教育中的適用性。 PubMed DOI

Can ChatGPT generate surgical multiple-choice questions comparable to those written by a surgeon?
Yes, ChatGPT can generate surgical multiple-choice questions that are comparable to those written by a surgeon. If you provide a specific topic or area of surgery, I can create questions along with answer choices and explanations. Please let me know your preferences! Proc (Bayl Univ Med Cent) 2024-12-23

這項研究比較了ChatGPT生成的多選題與人類外科醫生創作的題目在有效性上的差異。研究對象為112名四年級醫學生，涵蓋結直腸、胃部、創傷、乳腺和甲狀腺五個主題。結果顯示，雖然在結直腸主題上兩者有正相關，但只有一題AI題目達到可接受的區分水平，而人類題目則始終達標。這顯示AI生成的題目需經人類監督，以提升教育評估的質量。 PubMed DOI

AI versus human-generated multiple-choice questions for medical education: a cohort study in a high-stakes examination.
醫學教育中 AI 與人類生成的多選題比較：一項高風險考試的隊列研究。 BMC Med Educ 2025-02-08

這項研究評估了ChatGPT-4o在生成高品質多選題（MCQs）的效果，並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生，回答了兩組各100題的MCQs。主要發現包括：AI生成的題目較容易，且兩組題目的區分能力相似，但AI題目中有更多不準確及不適當的內容，且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。結論指出，雖然ChatGPT-4o能有效生成MCQs，但在深度上仍不足，強調人類審核的重要性，結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

Quality assurance and validity of AI-generated single best answer questions.
AI生成的單一最佳答案問題的質量保證與有效性。 BMC Med Educ 2025-02-26

最近生成式人工智慧（AI）在醫學教育上有了新進展，特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題，經專家評估後，69%的題目經小幅修改後可用於考試。結果顯示，AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題，但仍需進行質量把關，為醫學教育提供了新的評估資源。 PubMed DOI

Use of AI (GPT-4)-generated multiple-choice questions for the examination of surgical subspecialty residents: Report of feasibility and psychometric analysis.
使用 AI (GPT-4) 生成的多選題於外科次專科住院醫師考試中的應用：可行性與心理測量分析報告。 Can Urol Assoc J 2025-03-03

這項研究探討了利用人工智慧，特別是GPT-4模型，來生成泌尿科住院醫師的多選題（MCQs）。研究者將模型結合醫療執照機構的指導方針，創造符合2023年加拿大皇家內科醫師及外科醫師學會標準的考題。從123道題中選出60道用於多倫多大學的考試，結果顯示這些題目能有效區分住院醫師的知識水平，且具良好的區辨價值。研究顯示，GPT-4等人工智慧模型能簡化多選題的創建過程，提升醫學教育的效率與成果，未來可進一步探索其應用。 PubMed DOI

GPT-4 generated answer rationales to multiple choice assessment questions in undergraduate medical education.
GPT-4 生成的本科醫學教育多選評估問題的答案理由。 BMC Med Educ 2025-03-04

這項研究探討了GPT-4在醫學教育中生成臨床案例多選題（MCQs）答案理由的效果。2023年8月，預科醫學生的課程主任評估了AI生成的80道題目，結果顯示GPT-4的正確率高達93.8%。課程主任認為這些理由大多準確（77.5%）、清晰（83.8%）且適當（93.8%），88.3%的理由幾乎不需修改。大多數主任對使用GPT-4持開放態度，審閱時間普遍在四分鐘內。研究結果顯示GPT-4可作為醫學教育的有效工具，未來將探討學生反饋及技術整合。 PubMed DOI

Generative AI vs. human expertise: a comparative analysis of case-based rational pharmacotherapy question generation.
生成式人工智慧與人類專業知識：基於案例的合理藥物治療問題生成的比較分析。 Eur J Clin Pharmacol 2025-04-09

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示，這些模型生成了60個問題，並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題，結果顯示AI問題的正確率與專家問題相當，且AI生成問題的準備效率顯著提升。然而，仍有19個問題被認為無法使用，顯示專家審查的重要性。結合AI效率與專家驗證的方式，可能是改善醫學教育的最佳策略。 PubMed DOI

Exploratory Assessment of GPT-4's Effectiveness in Generating Valid Exam Items in Pharmacy Education.
GPT-4 在產生有效藥學教育考題之成效的初步評估 Am J Pharm Educ 2025-04-17

研究發現，GPT-4雖能協助產生藥學多選題，但品質參差不齊，僅少數題目可直接使用，大多仍需專家審查和修改。考題難度分布不均，部分題目也不夠合適。整體來說，AI可輔助出題，但還不能完全取代專業審核。 PubMed DOI

Anatomy exam model for the circulatory and respiratory systems using GPT-4: a medical school study.
使用 GPT-4 的循環與呼吸系統解剖學考試模型：醫學院研究 Surg Radiol Anat 2025-06-10

這項研究發現，GPT-4能產生品質不錯、難度適中的解剖學選擇題，學生普遍覺得題目清楚好懂。不過，AI出的題目多偏向記憶型，較難評量高階思考能力。整體來說，GPT-4有潛力協助出題，但還是需要專家審核，才能確保題目涵蓋進階認知層級。 PubMed DOI

A comparison of the psychometric properties of GPT-4 versus human novice and expert authors of clinically complex MCQs in a mock examination of Australian medical students.
GPT-4 與人類新手及專家作者在澳洲醫學生模擬考試中臨床複雜選擇題心理計量特性的比較 Med Teach 2025-06-12

研究發現，AI產生的醫學選擇題在難度和鑑別度上跟人類寫的差不多，整體品質也很高。不過，AI出的干擾選項效果比新手差一點，但跟專家差不多。總結來說，AI能出不錯的題目，但還是需要人類幫忙審查，才能讓選項更有品質。 PubMed DOI

原始文章

站上相關主題文章列表