Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Evaluating ChatGPT-4 for the Interpretation of Images from Several Diagnostic Techniques in Gastroenterology.
評估 ChatGPT-4 在消化內科多種診斷技術影像解讀中的應用。 J Clin Med 2025-01-25

這項研究評估了ChatGPT-4在解讀各種胃腸科影像的表現，分析了740張影像，並將預測結果與既有診斷進行比較。結果顯示，ChatGPT-4的準確性在不同程序中差異明顯，膠囊內視鏡的準確率介於50%到90%之間，設備輔助腸鏡為67%，而內視鏡超音波和高解析度肛門鏡的表現則較差。整體來看，這顯示ChatGPT-4的診斷能力尚不理想，臨床應用前仍需進一步改進。 PubMed DOI

Evaluating the Ability of Artificial Intelligence to Address Nuanced Cardiology Subspecialty Questions: ChatGPT and CathSAP.
人工智慧解答心臟病次專科細緻問題的能力評估：ChatGPT 與 CathSAP J Soc Cardiovasc Angiogr Interv 2025-04-15

研究用360題心臟科考題測試ChatGPT，初始得分54.44%，給予學習資料後提升到79.16%，接近人類平均。ChatGPT在基礎科學和藥理學表現佳，但解剖學較弱，且無法處理圖片等視覺資料。顯示AI能透過學習進步，但還有待改進，未來需更多研究優化醫學教育應用。 PubMed DOI

Performance of Large Language Models (ChatGPT and Gemini Advanced) in Gastrointestinal Pathology and Clinical Review of Applications in Gastroenterology.
大型語言模型（ChatGPT 與 Gemini Advanced）在腸胃道病理學的表現及其於腸胃科應用的臨床回顧 Cureus 2025-05-05

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示，ChatGPT-4.0和Gemini Advanced部分表現較佳，但整體水準還是普通。三款AI都無法正確判斷癌症分期，且有不少引用文獻是假的。研究認為，AI雖然進步中，但臨床應用前還是需要專家把關。 PubMed DOI

Can ChatGPT-4o Really Pass Medical Science Exams? A Pragmatic Analysis Using Novel Questions.
ChatGPT-4o 真的能通過醫學科學考試嗎？以新穎試題進行的實用性分析 Med Sci Educ 2025-05-12

ChatGPT-4o 在英美醫師執照考試表現亮眼，即使遇到全新題目也能高分，證明不是只靠背題庫。不過，遇到圖片型選項時表現就變差。這說明單靠出新題或圖片題，無法完全防堵 AI 作弊，還是得有嚴格監考和安全措施，才能確保考試公平。 PubMed DOI

Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估：ChatGPT-4.0 與 DeepSeek-R1 的比較分析 Am J Otolaryngol 2025-05-14

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節，DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善，目前都還不適合提供個別病人專業建議，AI在這領域還需加強。 PubMed DOI

Bridging AI and Medical Expertise: ChatGPT's Success on the Medical Specialization Residency Admission Exam in Spain.
連結 AI 與醫學專業：ChatGPT 在西班牙醫學專科住院醫師入學考試的成功 Stud Health Technol Inform 2025-05-17

ChatGPT-4參加西班牙醫師考試，200題答對150題，成績約在1,900到2,300名之間，已能申請多數醫學專科。它在有無圖片題目表現差不多，難題表現較弱，跟人類類似。研究認為AI有教育潛力，但會出錯，不能取代醫師，答案還是要專業審查。 PubMed DOI

The Performance of AI in Dermatology Exams: The Exam Success and Limits of ChatGPT.
AI 在皮膚科考試中的表現：ChatGPT 的考試通過率與侷限性 J Cosmet Dermatol 2025-05-19

這項研究發現，ChatGPT 3.5在皮膚科住院醫師考題表現不如資深醫師，只能應付簡單題目；4.0版雖然進步，能達到部分初中階醫師水準，但遇到難題還是有瓶頸。整體來說，ChatGPT 4.0在皮膚科教育有潛力，但目前還無法取代資深醫師，未來若持續進步，對醫學訓練會更有幫助。 PubMed DOI

The Growing Role of Artificial Intelligence in Surgical Education: ChatGPT Undertakes the Australian Generic Surgical Sciences Examination.
人工智慧在外科教育中日益增長的角色：ChatGPT 參與澳洲通用外科科學考試 ANZ J Surg 2025-05-30

ChatGPT 在通用外科考試拿到 72.7 分，超過及格線，生理學和選擇題表現不錯，但解剖學和需要分析的題目比較弱。雖然有潛力協助醫學教育，但還有不少限制，未來要再多研究和評估，才能廣泛應用。 PubMed DOI

Evaluating Artificial Intelligence in Patient Education: DeepSeek-V3 Versus ChatGPT-4o in Answering Common Questions on Laparoscopic Cholecystectomy.
人工智慧於病患衛教中的評估：DeepSeek-V3 與 ChatGPT-4o 在回答腹腔鏡膽囊切除術常見問題之比較 ANZ J Surg 2025-06-11

這項研究比較DeepSeek-V3和ChatGPT-4o在回答腹腔鏡膽囊切除術常見病人問題的表現。由兩位外科醫師評分後，發現DeepSeek-V3在適切性、正確性和易讀性都勝出，顯示它在這類病人衛教上可能更有優勢。 PubMed DOI

原始文章

站上相關主題文章列表