How Does ChatGPT Perform on the United States Medical Licensing Examination (USMLE)? The Implications of Large Language Models for Medical Education and Knowledge Assessment.
ChatGPT 在美國醫師執照考試（USMLE）上的表現如何？大型語言模型對醫學教育和知識評估的影響。 JMIR Med Educ 2024-02-27

研究發現ChatGPT在美國醫師執照考試Step 1和Step 2的表現介於42%到64.4%之間，比InstructGPT和GPT-3表現更好。雖然在較難的問題上表現較差，但仍可提供合理答案和內部問題資訊。研究建議ChatGPT可能成為醫學教育中有用的工具，因為它準確且有邏輯性。 PubMed DOI

Can ChatGPT pass the MRCP (UK) written examinations? Analysis of performance and errors using a clinical decision-reasoning framework.
ChatGPT 能通過 MRCP（英國）筆試嗎？使用臨床決策推理框架進行表現和錯誤分析。 BMJ Open 2024-03-20

研究發現ChatGPT 4在醫學研究生考試中表現準確，準確率受問題難度/長度影響。常見錯誤包括事實、上下文錯誤和遺漏。建議未來可用多選題評估LLM表現，並探討如何運用LLM技術改進醫療器材。 PubMed DOI

Appraisal of ChatGPT's Aptitude for Medical Education: Comparative Analysis With Third-Year Medical Students in a Pulmonology Examination.
ChatGPT 在醫學教育中的能力評估：與三年級醫學生在肺病學考試中的比較分析。 JMIR Med Educ 2024-07-23

這項研究評估了ChatGPT-3.5在肺病學考試中的表現，並與三年級醫學生進行比較。研究分為兩組：244名法語醫學生和ChatGPT，後者以無上下文（V1）和有上下文（V2）兩種格式測試。結果顯示，V1在放射學和胸外科表現佳，但在病理學和藥理學上不理想；V2則在所有類別中表現更準確，並在開放式問題上優於學生。V2通過考試的比例超過62.1%，而V1未能通過。總體而言，ChatGPT的表現與醫學生相似，受問題格式和複雜度影響，尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

Performance of ChatGPT Across Different Versions in Medical Licensing Examinations Worldwide: Systematic Review and Meta-Analysis.
ChatGPT 在全球醫學執照考試中不同版本的表現：系統性回顧與統合分析。 J Med Internet Res 2024-07-25

這項研究回顧了ChatGPT在醫學執照考試的表現，分析了2022年1月到2024年3月間的45項研究。結果顯示，GPT-4的準確率達81%，優於GPT-3.5的58%。GPT-4在29項考試中通過26項，並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現，但對GPT-4無影響。兩者在問題類型上表現不同，GPT-3.5在短文本問題上較佳，而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力，但也指出準確性不一致及各國知識差異的挑戰，旨在提供教育者和政策制定者相關資訊。 PubMed DOI

Performance of ChatGPT-3.5 and ChatGPT-4 on the European Board of Urology (EBU) exams: a comparative analysis.
ChatGPT-3.5 和 ChatGPT-4 在歐洲泌尿學委員會 (EBU) 考試中的表現：比較分析。 World J Urol 2024-07-26

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現，特別是版本3.5和4。分析了2017至2022年的多選題，結果顯示ChatGPT-4在所有考試中表現優於3.5，且每次考試都達到及格分數（≥60%）。不過，ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看，研究指出ChatGPT-4能有效回答複雜醫學問題，但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

Evaluating the competency of ChatGPT in MRCP Part 1 and a systematic literature review of its capabilities in postgraduate medical assessments.
評估 ChatGPT 在 MRCP Part 1 的能力及其在研究生醫學評估中的能力的系統文獻回顧。 PLoS One 2024-07-31

研究顯示，ChatGPT在英國研究生醫學考試中的表現有明顯差異。ChatGPT-3.5在MRCP Part 1考試中得66.4%，而ChatGPT-4則提升至84.8%，兩者均超過及格標準。不過，ChatGPT-3.5在九場考試中有八場未通過，平均分數低於及格標準5.0%；相對地，ChatGPT-4在十一場考試中通過九場，平均分數高出13.56%。儘管成績進步，但兩者仍有產生錯誤資訊的問題，這對其在醫學教育中的應用造成挑戰。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Critical Analysis of ChatGPT 4 Omni in USMLE Disciplines, Clinical Clerkships, and Clinical Skills.
對於 USMLE 學科、臨床實習和臨床技能的 ChatGPT 4 Omni 的關鍵分析。 JMIR Med Educ 2024-09-14

最近的研究顯示，像ChatGPT這樣的大型語言模型（LLMs）能有效通過美國醫學執照考試（USMLE），但對其在特定醫學領域的表現缺乏深入分析。研究比較了不同版本的ChatGPT（GPT-3.5、GPT-4和GPT-4 Omni）在750道臨床情境選擇題中的準確性。結果顯示，GPT-4 Omni的準確率最高，達90.4%，顯著超過其他版本及醫學生的平均準確率。這顯示出其在醫學教育中的潛在價值，但也強調了謹慎整合LLMs的重要性。 PubMed DOI

ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis.
ChatGPT-4 在 USMLE 學科和臨床技能中的表現：比較分析。 JMIR Med Educ 2024-11-06

最近的研究顯示，像 ChatGPT 這樣的大型語言模型（LLMs）能有效通過美國醫學執照考試（USMLE）。本研究評估了不同版本的 ChatGPT（GPT-3.5、GPT-4 和 GPT-4 Omni）在醫學學科及臨床技能方面的表現。結果顯示，GPT-4 Omni 的準確率最高，達到90.4%，明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力，但也強調需要結構化課程來指導其整合及持續評估。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

原始文章

站上相關主題文章列表