Appraisal of ChatGPT's Aptitude for Medical Education: Comparative Analysis With Third-Year Medical Students in a Pulmonology Examination.
ChatGPT 在醫學教育中的能力評估：與三年級醫學生在肺病學考試中的比較分析。 JMIR Med Educ 2024-07-23

這項研究評估了ChatGPT-3.5在肺病學考試中的表現，並與三年級醫學生進行比較。研究分為兩組：244名法語醫學生和ChatGPT，後者以無上下文（V1）和有上下文（V2）兩種格式測試。結果顯示，V1在放射學和胸外科表現佳，但在病理學和藥理學上不理想；V2則在所有類別中表現更準確，並在開放式問題上優於學生。V2通過考試的比例超過62.1%，而V1未能通過。總體而言，ChatGPT的表現與醫學生相似，受問題格式和複雜度影響，尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

Performance of ChatGPT Across Different Versions in Medical Licensing Examinations Worldwide: Systematic Review and Meta-Analysis.
ChatGPT 在全球醫學執照考試中不同版本的表現：系統性回顧與統合分析。 J Med Internet Res 2024-07-25

這項研究回顧了ChatGPT在醫學執照考試的表現，分析了2022年1月到2024年3月間的45項研究。結果顯示，GPT-4的準確率達81%，優於GPT-3.5的58%。GPT-4在29項考試中通過26項，並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現，但對GPT-4無影響。兩者在問題類型上表現不同，GPT-3.5在短文本問題上較佳，而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力，但也指出準確性不一致及各國知識差異的挑戰，旨在提供教育者和政策制定者相關資訊。 PubMed DOI

Performance of ChatGPT-3.5 and ChatGPT-4 on the European Board of Urology (EBU) exams: a comparative analysis.
ChatGPT-3.5 和 ChatGPT-4 在歐洲泌尿學委員會 (EBU) 考試中的表現：比較分析。 World J Urol 2024-07-26

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現，特別是版本3.5和4。分析了2017至2022年的多選題，結果顯示ChatGPT-4在所有考試中表現優於3.5，且每次考試都達到及格分數（≥60%）。不過，ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看，研究指出ChatGPT-4能有效回答複雜醫學問題，但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

Influence of Model Evolution and System Roles on ChatGPT's Performance in Chinese Medical Licensing Exams: Comparative Study.
模型演變與系統角色對 ChatGPT 在中國醫學執照考試中表現的影響：比較研究。 JMIR Med Educ 2024-08-14

這項研究評估了ChatGPT在中國國家醫學執照考試中的表現，特別是GPT-3.5和GPT-4.0版本。研究發現，GPT-4.0的及格率為72.7%，明顯高於GPT-3.5的54%。此外，GPT-4.0的回答變異性較低，且在15個醫學子專科中有14個超過準確性門檻，顯示其在醫學教育和臨床實踐中的潛在應用價值。總體而言，GPT-4.0在準確性和一致性上表現更佳，值得進一步探索。 PubMed DOI

Performance of ChatGPT in Solving Questions From the Progress Test (Brazilian National Medical Exam): A Potential Artificial Intelligence Tool in Medical Practice.
ChatGPT 在解答巴西國家醫學考試進步測試問題中的表現：潛在的人工智慧工具在醫學實踐中的應用。 Cureus 2024-08-19

這項研究探討了ChatGPT在2021至2023年間進行的進步測試中回答醫學問題的表現。研究人員將測試問題給ChatGPT 3.5，並與來自120多所巴西大學的醫學生進行比較。結果顯示，ChatGPT在三年的平均準確率分別為69.7%、68.3%和67.2%，均超過醫學生。特別是在公共衛生方面，ChatGPT的平均得分達77.8%。這顯示出ChatGPT在醫學問題的回答準確性上超越了人類學生，包括即將畢業的醫學生。 PubMed DOI

Comparison of the Performance of Artificial Intelligence Versus Medical Professionals in the Polish Final Medical Examination.
人工智慧與醫療專業人員在波蘭最終醫學考試中的表現比較。 Cureus 2024-09-02

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現，特別是3.5和4.0版本。分析196道選擇題後，發現3.5版本的正確率為50.51%，而4.0版本提升至77.55%，超過及格線56%。值得注意的是，3.5版本對正確答案的信心較高，而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看，ChatGPT 4.0在醫學教育和評估中展現了潛力，未來版本如5.0預期會有更好表現。 PubMed DOI

ChatGPT-4 Omni Performance in USMLE Disciplines and Clinical Skills: Comparative Analysis.
ChatGPT-4 在 USMLE 學科和臨床技能中的表現：比較分析。 JMIR Med Educ 2024-11-06

最近的研究顯示，像 ChatGPT 這樣的大型語言模型（LLMs）能有效通過美國醫學執照考試（USMLE）。本研究評估了不同版本的 ChatGPT（GPT-3.5、GPT-4 和 GPT-4 Omni）在醫學學科及臨床技能方面的表現。結果顯示，GPT-4 Omni 的準確率最高，達到90.4%，明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力，但也強調需要結構化課程來指導其整合及持續評估。 PubMed DOI

Performance of ChatGPT in the Portuguese National Residency Access Examination.
ChatGPT 在葡萄牙國家住院醫師入學考試中的表現。 Acta Med Port 2024-12-20

這項研究評估了ChatGPT 3.5和4o版本在葡萄牙國家住院醫師入學考試的表現，分析了2019至2023年五個考試版本的750道選擇題。結果顯示，ChatGPT 4o的中位數分數為127，顯著高於ChatGPT 3.5的106（p = 0.048），並在兩個版本中進入前1%。ChatGPT 4o的表現也超越了人類考生的中位數，符合醫學專科資格。研究指出，雖然ChatGPT 4o可成為醫學教育的資源，但仍需人類監督以確保臨床安全與準確性。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

While GPT-3.5 is unable to pass the Physician Licensing Exam in Taiwan, GPT-4 successfully meets the criteria.
雖然 GPT-3.5 無法通過台灣的醫師執照考試，但 GPT-4 成功符合標準。 J Chin Med Assoc 2025-03-14

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現，特別關注繁體中文的能力。結果顯示，ChatGPT-3.5在基礎醫學科學的準確率為67.7%，臨床醫學為53.2%；而ChatGPT-4的表現明顯優於前者，準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大，但ChatGPT-4在所有科目中均表現良好，顯示AI在醫學教育中的潛力，實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

原始文章

站上相關主題文章列表