Performance of ChatGPT-3.5 and ChatGPT-4 on the European Board of Urology (EBU) exams: a comparative analysis.
ChatGPT-3.5 和 ChatGPT-4 在歐洲泌尿學委員會 (EBU) 考試中的表現：比較分析。 World J Urol 2024-07-26

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現，特別是版本3.5和4。分析了2017至2022年的多選題，結果顯示ChatGPT-4在所有考試中表現優於3.5，且每次考試都達到及格分數（≥60%）。不過，ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看，研究指出ChatGPT-4能有效回答複雜醫學問題，但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Assessing the performance of ChatGPT in medical ethical decision-making: a comparative study with USMLE-based scenarios.
評估 ChatGPT 在醫學倫理決策中的表現：與 USMLE 基於情境的比較研究。 J Med Ethics 2025-01-25

人工智慧（AI）在醫療領域的應用帶來了機會與挑戰，尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現，使用了273道來自不同題庫的問題。結果顯示，GPT-3.5的正確回答率普遍低於醫學生的平均水平，而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力，但人類的推理能力仍然優於AI，未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

Evaluating the Performance of ChatGPT4.0 Versus ChatGPT3.5 on the Hand Surgery Self-Assessment Exam: A Comparative Analysis of Performance on Image-Based Questions.
評估 ChatGPT4.0 與 ChatGPT3.5 在手外科自我評估考試中的表現：基於影像問題的表現比較分析。 Cureus 2025-02-17

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現，發現兩者在正確率上無顯著差異（分別為30.1%和28.7%）。雖然ChatGPT4.0提供的解釋較長，但對答案的信心卻較低，尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為，以促進AI在醫療中的應用。 PubMed DOI

Can ChatGPT-4 perform as a competent physician based on the Chinese critical care examination?
ChatGPT-4 能否根據中國重症醫學考試表現出色的醫生能力？ J Crit Care 2025-03-01

這項研究評估了ChatGPT-4在重症醫學的表現，使用的數據來自中國的健康專業技術考試。ChatGPT-4回答了600個問題，成功率達73.5%，超過60%的及格標準，基礎知識的準確率最高，達81.94%。單選題表現（76.72%）優於多選題（51.32%）。雖然它在臨床決策和醫學教育上顯示潛力，但仍需醫療專業人員的監督，以確保準確性和病人安全。 PubMed DOI

Artificial intelligence in healthcare education: evaluating the accuracy of ChatGPT, Copilot, and Google Gemini in cardiovascular pharmacology.
醫療教育中的人工智慧：評估 ChatGPT、Copilot 和 Google Gemini 在心血管藥理學中的準確性。 Front Med (Lausanne) 2025-03-06

這項研究分析了三種生成式人工智慧工具—ChatGPT-4、Copilot 和 Google Gemini—在心血管藥理學問題上的表現。研究使用了45道多選題和30道短答題，並由專家評估AI生成的答案準確性。結果顯示，這三種AI在簡單和中等難度的多選題上表現良好，但在高難度題目上表現不佳，特別是Gemini。ChatGPT-4在所有題型中表現最佳，Copilot次之，而Gemini則需改進。這些結果顯示AI在醫學教育中的潛力與挑戰。 PubMed DOI

While GPT-3.5 is unable to pass the Physician Licensing Exam in Taiwan, GPT-4 successfully meets the criteria.
雖然 GPT-3.5 無法通過台灣的醫師執照考試，但 GPT-4 成功符合標準。 J Chin Med Assoc 2025-03-14

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現，特別關注繁體中文的能力。結果顯示，ChatGPT-3.5在基礎醫學科學的準確率為67.7%，臨床醫學為53.2%；而ChatGPT-4的表現明顯優於前者，準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大，但ChatGPT-4在所有科目中均表現良好，顯示AI在醫學教育中的潛力，實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

Analyzing Question Characteristics Influencing ChatGPT's Performance in 3000 USMLE®-Style Questions.
分析影響 ChatGPT 在 3000 道 USMLE® 風格問題中表現的問題特徵。 Med Sci Educ 2025-03-27

這項研究評估了ChatGPT在回答美國醫學執照考試第二階段臨床知識問題的表現，分析了其在不同醫學專科、問題類型和難度上的準確性。總共評估了3,000道問題，結果顯示正確率為57.7%。在「男性生殖系統」類別中準確率最高（71.7%），而「免疫系統」最低（46.3%）。隨著問題難度和長度增加，表現下降，顯示較複雜問題更易錯誤。整體而言，ChatGPT的能力接近及格門檻，顯示其作為醫學生輔助學習工具的潛力，並強調了精煉AI模型和設計抗AI考題的重要性。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

Evaluating the Ability of Artificial Intelligence to Address Nuanced Cardiology Subspecialty Questions: ChatGPT and CathSAP.
人工智慧解答心臟病次專科細緻問題的能力評估：ChatGPT 與 CathSAP J Soc Cardiovasc Angiogr Interv 2025-04-15

研究用360題心臟科考題測試ChatGPT，初始得分54.44%，給予學習資料後提升到79.16%，接近人類平均。ChatGPT在基礎科學和藥理學表現佳，但解剖學較弱，且無法處理圖片等視覺資料。顯示AI能透過學習進步，但還有待改進，未來需更多研究優化醫學教育應用。 PubMed DOI

原始文章

站上相關主題文章列表