Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Accuracy, satisfaction, and impact of custom GPT in acquiring clinical knowledge: Potential for AI-assisted medical education.
自訂 GPT 在獲取臨床知識中的準確性、滿意度及影響：AI 輔助醫學教育的潛力。 Med Teach 2025-02-02

最近的人工智慧進展讓大型語言模型能針對特定領域進行客製化，像是醫學教育。本研究評估了一個專為提升醫學生和醫師臨床知識的客製化GPT模型，結果顯示其準確率達83.6%，高於一般AI模型。住院醫師對此模型的滿意度高，特別是它能促進學習獨立性和信心。這些發現顯示，客製化GPT有潛力改善醫學教育，但學習者和教育者仍需批判性地評估AI生成的內容。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

Evaluating the Ability of Artificial Intelligence to Address Nuanced Cardiology Subspecialty Questions: ChatGPT and CathSAP.
人工智慧解答心臟病次專科細緻問題的能力評估：ChatGPT 與 CathSAP J Soc Cardiovasc Angiogr Interv 2025-04-15

研究用360題心臟科考題測試ChatGPT，初始得分54.44%，給予學習資料後提升到79.16%，接近人類平均。ChatGPT在基礎科學和藥理學表現佳，但解剖學較弱，且無法處理圖片等視覺資料。顯示AI能透過學習進步，但還有待改進，未來需更多研究優化醫學教育應用。 PubMed DOI

Artificial intelligence enhanced Chatbot boom: A single center observational study to evaluate assistance in clinical anesthesiology.
人工智慧強化 Chatbot 熱潮：單一中心觀察性研究評估其於臨床麻醉學的輔助應用 J Anaesthesiol Clin Pharmacol 2025-04-18

這項研究發現，ChatGPT-4在手術室情境下協助臨床決策時，表現和住院麻醉科醫師有時相近、有時差異較大。給它更多提示會讓表現變好，但整體來說，準確度和完整性還不夠穩定，目前還不適合用來做手術中的即時決策。 PubMed DOI

Can Artificial Intelligence Be Successful as an Anaesthesiology and Reanimation Resident?
人工智慧能否成功擔任麻醉與重症醫學住院醫師？ Turk J Anaesthesiol Reanim 2025-04-18

這項研究發現，ChatGPT在麻醉與重症醫學考試中，表現比初階住院醫師好，但比資深住院醫師差一點，整體成績和住院醫師差不多。未來有機會把ChatGPT應用在麻醉和重症醫學的教學上，當作輔助學習的工具。 PubMed DOI

The role of artificial intelligence in medical education: an evaluation of Large Language Models (LLMs) on the Turkish Medical Specialty Training Entrance Exam.
人工智慧在醫學教育中的角色：大型語言模型（LLMs）於土耳其醫學專科訓練入學考試的評估 BMC Med Educ 2025-04-25

研究比較四款大型語言模型在2021年土耳其醫學專科考試的表現，ChatGPT 4正確率最高（88.75%），Llama 3 70B（79.17%）、Gemini 1.5 Pro（78.13%）次之，Command R+僅50%。ChatGPT 4在基礎和臨床醫學題目都很強，顯示它和Llama 3 70B有潛力協助土耳其語醫學教育與臨床應用，其他兩款則還需加強。 PubMed DOI

The Growing Role of Artificial Intelligence in Surgical Education: ChatGPT Undertakes the Australian Generic Surgical Sciences Examination.
人工智慧在外科教育中日益增長的角色：ChatGPT 參與澳洲通用外科科學考試 ANZ J Surg 2025-05-30

ChatGPT 在通用外科考試拿到 72.7 分，超過及格線，生理學和選擇題表現不錯，但解剖學和需要分析的題目比較弱。雖然有潛力協助醫學教育，但還有不少限制，未來要再多研究和評估，才能廣泛應用。 PubMed DOI

The utility of generative artificial intelligence Chatbot (ChatGPT) in generating teaching and learning material for anesthesiology residents.
生成式人工智慧聊天機器人（ChatGPT）在產生麻醉科住院醫師教學與學習教材上的實用性 Front Artif Intell 2025-06-05

研究發現，ChatGPT雖然常能正確回答初階麻醉學問題，但有時會出現重大錯誤，像是引用錯誤、混淆概念或受偏見影響。這些錯誤若發生在臨床上，可能會有風險。因此，ChatGPT的答案沒經專家審查前，不適合直接用在醫學教育。 PubMed DOI

Evaluating Large Language Models on American Board of Anesthesiology-style Anesthesiology Questions: Accuracy, Domain Consistency, and Clinical Implications.
以美國麻醉科醫學會（American Board of Anesthesiology）風格麻醉學試題評估大型語言模型：準確性、領域一致性與臨床意涵 J Cardiothorac Vasc Anesth 2025-06-15

五款主流大型語言模型（如ChatGPT-4、Gemini等）在麻醉學考題測試中都拿到高分，彼此表現差不多，顯示未來有望協助醫學教育和臨床決策。不過，還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI

原始文章

站上相關主題文章列表