Twelve tips to leverage AI for efficient and effective medical question generation: A guide for educators using Chat GPT.
運用 AI 提升醫學問題生成效率與效果的十二個技巧：教育者使用 Chat GPT 的指南。 Med Teach 2024-03-05

使用大型語言模型如ChatGPT製作高品質醫學評估問題，特別是多重選擇題，可提升教育效率，支持學生自主學習。研究探討如何運用ChatGPT創建多元問題，符合評估最佳實踐。雖AI工具有助問題生成，但人類專業知識仍不可或缺，確保醫學教育品質和正確性。 PubMed DOI

Evaluating the Capabilities of Generative AI Tools in Understanding Medical Papers: Qualitative Study.
評估生成式 AI 工具在理解醫學論文中的能力：質性研究。 JMIR Med Inform 2024-09-04

這項研究探討大型語言模型（LLMs）在理解醫學研究論文的能力，特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現，包括GPT-3.5-Turbo和GPT-4系列，與專業醫學教授的評估。分析了50篇來自PubMed的論文，結果顯示GPT-3.5-Turbo的準確率最高（66.9%），而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力，但也指出需進一步研究以克服現有限制。 PubMed DOI

Assessing AI efficacy in medical knowledge tests: A study using Taiwan's internal medicine exam questions from 2020 to 2023.
評估人工智慧在醫學知識測試中的效能：以2020至2023年台灣內科考試題目為例。 Digit Health 2024-10-21

這項研究評估了生成式人工智慧模型在正式醫學考試中的表現，使用了台灣內科醫學會的考題。測試了三個AI模型：GPT-4o、Claude_3.5 Sonnet和Gemini Advanced。結果顯示，GPT-4o在2022年達到最高分86.25，Claude_3.5 Sonnet在精神科和腎臟科表現優異，最高分88.13，而Gemini Advanced的平均分較低。所有模型在文字題上表現較好，顯示AI在醫學教育中有潛力，但不同專科和問題類型的熟練程度仍有差異。 PubMed DOI

From open-ended to multiple-choice: evaluating diagnostic performance and consistency of ChatGPT, Google Gemini and Claude AI.
從開放式問題到選擇題：評估 ChatGPT、Google Gemini 和 Claude AI 的診斷表現與一致性。 Wiad Lek 2024-12-11

這項研究評估了四種大型語言模型（LLMs）在根據臨床案例診斷疾病的表現，包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段，第一階段僅使用案例描述，第二階段則加入答案選項。結果顯示，Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好，但Google Gemini的效能較低，需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

QUEST-AI: A System for Question Generation, Verification, and Refinement using AI for USMLE-Style Exams.
QUEST-AI：一個使用 AI 進行問題生成、驗證和精煉的系統，適用於 USMLE 風格的考試。 Pac Symp Biocomput 2024-12-13

這項研究介紹了QUEST-AI系統，利用大型語言模型（如GPT-4）來生成、評估和修正美國醫學執照考試（USMLE）的考題。考量到製作醫學考試內容的高成本與耗時，這種創新方法旨在簡化流程。研究人員創建了100道考題，並與醫生和醫學生進行評估。結果顯示，大多數LLM生成的考題被認為有效，且與人類生成的考題表現相關性強。這項技術在醫學教育中的應用，可能提升USMLE考試準備的效率與可及性。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

AI versus human-generated multiple-choice questions for medical education: a cohort study in a high-stakes examination.
醫學教育中 AI 與人類生成的多選題比較：一項高風險考試的隊列研究。 BMC Med Educ 2025-02-08

這項研究評估了ChatGPT-4o在生成高品質多選題（MCQs）的效果，並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生，回答了兩組各100題的MCQs。主要發現包括：AI生成的題目較容易，且兩組題目的區分能力相似，但AI題目中有更多不準確及不適當的內容，且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。結論指出，雖然ChatGPT-4o能有效生成MCQs，但在深度上仍不足，強調人類審核的重要性，結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

Quality assurance and validity of AI-generated single best answer questions.
AI生成的單一最佳答案問題的質量保證與有效性。 BMC Med Educ 2025-02-26

最近生成式人工智慧（AI）在醫學教育上有了新進展，特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題，經專家評估後，69%的題目經小幅修改後可用於考試。結果顯示，AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題，但仍需進行質量把關，為醫學教育提供了新的評估資源。 PubMed DOI

Artificial intelligence in healthcare education: evaluating the accuracy of ChatGPT, Copilot, and Google Gemini in cardiovascular pharmacology.
醫療教育中的人工智慧：評估 ChatGPT、Copilot 和 Google Gemini 在心血管藥理學中的準確性。 Front Med (Lausanne) 2025-03-06

這項研究分析了三種生成式人工智慧工具—ChatGPT-4、Copilot 和 Google Gemini—在心血管藥理學問題上的表現。研究使用了45道多選題和30道短答題，並由專家評估AI生成的答案準確性。結果顯示，這三種AI在簡單和中等難度的多選題上表現良好，但在高難度題目上表現不佳，特別是Gemini。ChatGPT-4在所有題型中表現最佳，Copilot次之，而Gemini則需改進。這些結果顯示AI在醫學教育中的潛力與挑戰。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

原始文章

站上相關主題文章列表