Performance of ChatGPT-3.5 and ChatGPT-4 on the European Board of Urology (EBU) exams: a comparative analysis.
ChatGPT-3.5 和 ChatGPT-4 在歐洲泌尿學委員會 (EBU) 考試中的表現：比較分析。 World J Urol 2024-07-26

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現，特別是版本3.5和4。分析了2017至2022年的多選題，結果顯示ChatGPT-4在所有考試中表現優於3.5，且每次考試都達到及格分數（≥60%）。不過，ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看，研究指出ChatGPT-4能有效回答複雜醫學問題，但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Can ChatGPT-4 perform as a competent physician based on the Chinese critical care examination?
ChatGPT-4 能否根據中國重症醫學考試表現出色的醫生能力？ J Crit Care 2025-03-01

這項研究評估了ChatGPT-4在重症醫學的表現，使用的數據來自中國的健康專業技術考試。ChatGPT-4回答了600個問題，成功率達73.5%，超過60%的及格標準，基礎知識的準確率最高，達81.94%。單選題表現（76.72%）優於多選題（51.32%）。雖然它在臨床決策和醫學教育上顯示潛力，但仍需醫療專業人員的監督，以確保準確性和病人安全。 PubMed DOI

ChatGPT's Performance on Portuguese Medical Examination Questions: Comparative Analysis of ChatGPT-3.5 Turbo and ChatGPT-4o Mini.
ChatGPT 在葡萄牙語醫學考試問題上的表現：ChatGPT-3.5 Turbo 與 ChatGPT-4o Mini 的比較分析。 JMIR Med Educ 2025-03-05

ChatGPT的進步對醫學教育產生了顯著影響，透過創新的評估和學習工具，提升醫生的評估效果。一項研究評估了ChatGPT-3.5 Turbo和ChatGPT-4o mini在2023年葡萄牙語專科訓練入學考試中的表現。結果顯示，ChatGPT-4o mini的準確率達65%，超越了ChatGPT-3.5 Turbo及部分醫學考生的表現。這強調了ChatGPT在醫學教育中的潛力，但也提醒需在教師監督下謹慎使用，並需進一步研究。 PubMed DOI

While GPT-3.5 is unable to pass the Physician Licensing Exam in Taiwan, GPT-4 successfully meets the criteria.
雖然 GPT-3.5 無法通過台灣的醫師執照考試，但 GPT-4 成功符合標準。 J Chin Med Assoc 2025-03-14

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現，特別關注繁體中文的能力。結果顯示，ChatGPT-3.5在基礎醫學科學的準確率為67.7%，臨床醫學為53.2%；而ChatGPT-4的表現明顯優於前者，準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大，但ChatGPT-4在所有科目中均表現良好，顯示AI在醫學教育中的潛力，實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

Assessing ChatGPT 4.0's Capabilities in the United Kingdom Medical Licensing Examination (UKMLA): A Robust Categorical Analysis.
ChatGPT 4.0 在英國醫學執照考試（UKMLA）中的能力評估：一項嚴謹的類別分析 Sci Rep 2025-04-15

這項研究發現，ChatGPT-4在有選擇題選項時，答對率超過86%，但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊，但不是真的懂臨床情境。未來如果和專業醫療人員搭配，有機會幫助臨床工作，但還需要更多測試來確保安全和有效。 PubMed DOI

Evaluating Chat Generative Pretrained Transformer (GPT-4o) Problem-Solving Performance in the Japan Certificate Examination for Biomedical Engineering Class 1.
在日本生物醫學工程一級認證考試中評估 Chat Generative Pretrained Transformer (GPT-4o) 的問題解決表現 Cureus 2025-04-23

這項研究發現，ChatGPT（GPT-4o）在日本生物醫學工程一級認證考試的答對率約為58%到68%，只有一年有及格。主要錯誤來自知識不足、理解錯誤或亂編答案。雖然有一定表現，但目前還不夠穩定，無法完全信賴。 PubMed DOI

Artificial Intelligence vs. Human Cognition: A Comparative Analysis of ChatGPT and Candidates Sitting the European Board of Ophthalmology Diploma Examination.
人工智慧與人類認知：ChatGPT 與參加歐洲眼科醫學會文憑考試考生的比較分析 Vision (Basel) 2025-04-23

這項研究發現，ChatGPT-3.5 Turbo在歐洲眼科醫學會考試的多重是非題表現不錯，平均得分64.4%，但在單一最佳答案題型只拿到28.4%，明顯輸給人類考生。它在資訊查找上較強，但知識整合能力較弱。整體來說，ChatGPT適合當作眼科考試準備和回饋的輔助工具。 PubMed DOI

Bridging AI and Medical Expertise: ChatGPT's Success on the Medical Specialization Residency Admission Exam in Spain.
連結 AI 與醫學專業：ChatGPT 在西班牙醫學專科住院醫師入學考試的成功 Stud Health Technol Inform 2025-05-17

ChatGPT-4參加西班牙醫師考試，200題答對150題，成績約在1,900到2,300名之間，已能申請多數醫學專科。它在有無圖片題目表現差不多，難題表現較弱，跟人類類似。研究認為AI有教育潛力，但會出錯，不能取代醫師，答案還是要專業審查。 PubMed DOI

ChatGPT's Performance on Iran's Medical Licensing Exams.
ChatGPT 在伊朗醫師執照考試的表現 Med J Islam Repub Iran 2025-06-09

這項研究發現，ChatGPT 3.5在伊朗醫師執照考試中，用英文作答的正確率（61.4%）明顯高於波斯語（35.7%），整體正確率為48.5%，一致性高達91%。在基礎醫學和實習前考試有及格表現，住院醫師前考試則僅達最低標準，顯示其在醫學教育上有潛力，但語言能力仍有限。 PubMed DOI

原始文章

站上相關主題文章列表