Appraisal of ChatGPT's Aptitude for Medical Education: Comparative Analysis With Third-Year Medical Students in a Pulmonology Examination.
ChatGPT 在醫學教育中的能力評估：與三年級醫學生在肺病學考試中的比較分析。 JMIR Med Educ 2024-07-23

這項研究評估了ChatGPT-3.5在肺病學考試中的表現，並與三年級醫學生進行比較。研究分為兩組：244名法語醫學生和ChatGPT，後者以無上下文（V1）和有上下文（V2）兩種格式測試。結果顯示，V1在放射學和胸外科表現佳，但在病理學和藥理學上不理想；V2則在所有類別中表現更準確，並在開放式問題上優於學生。V2通過考試的比例超過62.1%，而V1未能通過。總體而言，ChatGPT的表現與醫學生相似，受問題格式和複雜度影響，尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

Performance of ChatGPT-3.5 and ChatGPT-4 on the European Board of Urology (EBU) exams: a comparative analysis.
ChatGPT-3.5 和 ChatGPT-4 在歐洲泌尿學委員會 (EBU) 考試中的表現：比較分析。 World J Urol 2024-07-26

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現，特別是版本3.5和4。分析了2017至2022年的多選題，結果顯示ChatGPT-4在所有考試中表現優於3.5，且每次考試都達到及格分數（≥60%）。不過，ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看，研究指出ChatGPT-4能有效回答複雜醫學問題，但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

Human versus Artificial Intelligence: ChatGPT-4 Outperforming Bing, Bard, ChatGPT-3.5 and Humans in Clinical Chemistry Multiple-Choice Questions.
人類與人工智慧：ChatGPT-4 在臨床化學多選題中超越 Bing、Bard、ChatGPT-3.5 及人類。 Adv Med Educ Pract 2024-09-25

這項研究比較了AI聊天機器人（如ChatGPT-4、Bing和Bard）與醫學研究生在臨床化學多選題的表現。結果顯示，ChatGPT-4的平均得分為0.90，超過學生的0.68，其他AI的得分分別為0.77、0.73和0.67。研究指出，AI在記憶和理解的表現較佳，但在應用和分析上則較弱。雖然ChatGPT-4表現優秀，但也引發了對學術誠信及多選題使用的擔憂，值得重新思考其在高等教育中的適用性。 PubMed DOI

ChatGPT as a prospective undergraduate and medical school student.
作為一名未來的本科生和醫學院學生的 ChatGPT。 PLoS One 2024-10-23

這篇文章探討了一項實驗，對比了ChatGPT-4和ChatGPT-3.5在SAT、BMAT和IMSAT等入學考試的表現。結果顯示，ChatGPT-4的表現明顯優於前一版本，SAT考試得分進入前10%，並且能夠取得進入頂尖義大利醫學院的分數。研究還分析了錯誤答案，找出了ChatGPT-4的三種邏輯和計算錯誤，突顯了其弱點，並提出了在教育中有效運用AI的建議，儘管仍有一些限制。 PubMed DOI

Evaluating Chat Generative Pretrained Transformer (GPT-4o) Problem-Solving Performance in the Japan Certificate Examination for Biomedical Engineering Class 1.
在日本生物醫學工程一級認證考試中評估 Chat Generative Pretrained Transformer (GPT-4o) 的問題解決表現 Cureus 2025-04-23

這項研究發現，ChatGPT（GPT-4o）在日本生物醫學工程一級認證考試的答對率約為58%到68%，只有一年有及格。主要錯誤來自知識不足、理解錯誤或亂編答案。雖然有一定表現，但目前還不夠穩定，無法完全信賴。 PubMed DOI

Artificial Intelligence vs. Human Cognition: A Comparative Analysis of ChatGPT and Candidates Sitting the European Board of Ophthalmology Diploma Examination.
人工智慧與人類認知：ChatGPT 與參加歐洲眼科醫學會文憑考試考生的比較分析 Vision (Basel) 2025-04-23

這項研究發現，ChatGPT-3.5 Turbo在歐洲眼科醫學會考試的多重是非題表現不錯，平均得分64.4%，但在單一最佳答案題型只拿到28.4%，明顯輸給人類考生。它在資訊查找上較強，但知識整合能力較弱。整體來說，ChatGPT適合當作眼科考試準備和回饋的輔助工具。 PubMed DOI

Can ChatGPT-4o Really Pass Medical Science Exams? A Pragmatic Analysis Using Novel Questions.
ChatGPT-4o 真的能通過醫學科學考試嗎？以新穎試題進行的實用性分析 Med Sci Educ 2025-05-12

ChatGPT-4o 在英美醫師執照考試表現亮眼，即使遇到全新題目也能高分，證明不是只靠背題庫。不過，遇到圖片型選項時表現就變差。這說明單靠出新題或圖片題，無法完全防堵 AI 作弊，還是得有嚴格監考和安全措施，才能確保考試公平。 PubMed DOI

Learning Tools Using ChatGPT in the Biochemistry Class: Creating Notes and Performance on Exams.
在生物化學課堂中使用 ChatGPT 作為學習工具：筆記製作與考試表現 Biochem Mol Biol Educ 2025-05-15

這項研究發現，ChatGPT 3.5在大學初階生物化學課程中產生的學習資料，學生評價兩極，有人覺得有幫助，有人還是偏好傳統教材。而ChatGPT在開放式筆記考試中表現不佳，無法及格。整體來說，ChatGPT在教學上有潛力，但目前還有不少限制，未來AI學習工具還有改進空間。 PubMed DOI

Comparison of a generative large language model to pharmacy student performance on therapeutics examinations.
生成式大型語言模型與藥學系學生在治療學考試表現之比較 Curr Pharm Teach Learn 2025-05-23

ChatGPT-3.5 在治療學考試的表現明顯不如藥學系學生，分數只有 53%，學生平均則有 82%。它在需要應用和案例分析的題目上特別吃力，只有在記憶型題目表現較好，顯示生成式 AI 在複雜醫學教育任務上還有不少限制。 PubMed DOI

Performance of ChatGPT-3.5 and ChatGPT-4 in Solving Questions Based on Core Concepts in Cardiovascular Physiology.
ChatGPT-3.5 與 ChatGPT-4 在解答心血管生理核心概念相關問題的表現 Cureus 2025-06-06

這項研究發現，ChatGPT-4在回答心血管生理學選擇題時，正確率（83.33%）明顯高於ChatGPT-3.5（60%），而且解釋也更清楚。不過，AI的答案還是需要專業老師把關，醫學教育用AI時要特別小心。 PubMed DOI

原始文章

站上相關主題文章列表