Performance of ChatGPT in emergency medicine residency exams in Qatar: A comparative analysis with resident physicians.
卡塔爾急診醫學住院醫師考試中 ChatGPT 的表現：與住院醫師的比較分析。 Qatar Med J 2024-11-18

人工智慧（AI）在醫療領域的應用對醫學實踐影響深遠，尤其在教育、診斷和治療方面。本研究評估了OpenAI的ChatGPT在卡塔爾急診醫學住院醫師考試中的表現，並與住院醫師的成績進行比較。結果顯示，ChatGPT在所有考試類別中均表現優於住院醫師，但高年級住院醫師的及格率卻下降，顯示考試成績與實際技能之間的脫節，可能與COVID-19疫情對教育的影響有關。總體而言，ChatGPT在急診醫學領域展現出強大的理論知識，顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

Application of Large Language Models in Medical Training Evaluation-Using ChatGPT as a Standardized Patient: Multimetric Assessment.
大型語言模型在醫學訓練評估中的應用 - 使用 ChatGPT 作為標準化病人：多指標評估。 J Med Internet Res 2025-01-01

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人，特別是在病史採集方面。研究分為兩個階段：第一階段評估其可行性，模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性，並調整提示以增強回應。結果顯示，ChatGPT能有效區分不同質量的回應，經過修訂的提示使其準確性提高了4.926倍。整體而言，研究表明ChatGPT可作為模擬醫學評估的工具，並有潛力改善醫學訓練。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

GPT-4 assistance for improvement of physician performance on patient care tasks: a randomized controlled trial.
GPT-4 在改善醫師在病患照護任務上表現的隨機對照試驗。 Nat Med 2025-02-05

這項研究評估了使用大型語言模型（LLM），特別是GPT-4，在協助醫生進行管理推理任務方面的有效性，並與傳統資源進行比較。研究於2023年11月到2024年4月進行。 PubMed DOI

AI-powered standardised patients: evaluating ChatGPT-4o's impact on clinical case management in intern physicians.
AI 驅動的標準化病人：評估 ChatGPT-4o 對實習醫生臨床案例管理的影響。 BMC Med Educ 2025-02-20

這項研究探討了使用ChatGPT-4o作為虛擬病人，協助醫學實習生的臨床訓練。研究在艾登阿德南門德雷斯大學進行，21名六年級醫學生參與，透過問卷、訪談和觀察收集數據。結果顯示，實習生的自我評估與實際表現正相關，但在問題解決和臨床推理上存在明顯差距，且時間壓力加劇不安感。儘管面臨技術問題，實習生對AI輔助訓練表示滿意，並願意參加類似訓練。研究建議ChatGPT-4o可成為提升臨床技能的有效工具。 PubMed DOI

ChatGPT's Performance on Portuguese Medical Examination Questions: Comparative Analysis of ChatGPT-3.5 Turbo and ChatGPT-4o Mini.
ChatGPT 在葡萄牙語醫學考試問題上的表現：ChatGPT-3.5 Turbo 與 ChatGPT-4o Mini 的比較分析。 JMIR Med Educ 2025-03-05

ChatGPT的進步對醫學教育產生了顯著影響，透過創新的評估和學習工具，提升醫生的評估效果。一項研究評估了ChatGPT-3.5 Turbo和ChatGPT-4o mini在2023年葡萄牙語專科訓練入學考試中的表現。結果顯示，ChatGPT-4o mini的準確率達65%，超越了ChatGPT-3.5 Turbo及部分醫學考生的表現。這強調了ChatGPT在醫學教育中的潛力，但也提醒需在教師監督下謹慎使用，並需進一步研究。 PubMed DOI

Assessing ChatGPT 4.0's Capabilities in the United Kingdom Medical Licensing Examination (UKMLA): A Robust Categorical Analysis.
ChatGPT 4.0 在英國醫學執照考試（UKMLA）中的能力評估：一項嚴謹的類別分析 Sci Rep 2025-04-15

這項研究發現，ChatGPT-4在有選擇題選項時，答對率超過86%，但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊，但不是真的懂臨床情境。未來如果和專業醫療人員搭配，有機會幫助臨床工作，但還需要更多測試來確保安全和有效。 PubMed DOI

Can ChatGPT-4o Really Pass Medical Science Exams? A Pragmatic Analysis Using Novel Questions.
ChatGPT-4o 真的能通過醫學科學考試嗎？以新穎試題進行的實用性分析 Med Sci Educ 2025-05-12

ChatGPT-4o 在英美醫師執照考試表現亮眼，即使遇到全新題目也能高分，證明不是只靠背題庫。不過，遇到圖片型選項時表現就變差。這說明單靠出新題或圖片題，無法完全防堵 AI 作弊，還是得有嚴格監考和安全措施，才能確保考試公平。 PubMed DOI

Comparison of ChatGPT and Internet Research for Clinical Research and Decision-Making in Occupational Medicine: Randomized Controlled Trial.
ChatGPT 與網路搜尋在職業醫學臨床研究與決策中的比較：隨機對照試驗 JMIR Form Res 2025-05-20

這項德國研究發現，醫師和醫學生用ChatGPT查職業性肺病資料時，在找有害物質等研究任務上表現較好，也覺得自己專業知識有提升。但在臨床決策（像是否通報職業病）時，自己查資料的答對率反而更高。總結：ChatGPT適合輔助醫學研究，但臨床決策還是不能只靠它。 PubMed DOI

Exploring the Application Capability of ChatGPT as an Instructor in Skills Education for Dental Medical Students: Randomized Controlled Trial.
ChatGPT 作為牙醫醫學生技能教育指導者之應用能力探討：隨機對照試驗 J Med Internet Res 2025-05-27

這項研究發現，牙醫學生如果用ChatGPT搭配影片學習，無論在操作技能、自信心還是學習動機上，都比只看影片的學生表現更好，學習壓力也比較小。特別是空間能力較弱的學生，進步最多。整體來說，ChatGPT有助於提升牙醫技能教學的效果，讓教學方式更現代化。 PubMed DOI

原始文章

站上相關主題文章列表