Performance of artificial intelligence on a simulated Canadian urology board exam: Is CHATGPT ready for primetime?
人工智慧在模擬加拿大泌尿科委員會考試中的表現：CHATGPT是否已經準備好進入主流？ Can Urol Assoc J 2024-06-19

生成式人工智慧如CHATGPT在臨床護理和醫學教育中被應用。一項研究評估了CHATGPT 4在模擬加拿大泌尿科醫學委員會考試中的表現，結果顯示得分為46%，低於即將畢業的泌尿科住院醫師平均分數。CHATGPT在不同主題上表現有差異，尤其在腫瘤學方面表現較差。研究建議持續評估生成式人工智慧的能力，並進一步開發和訓練以提升在泌尿科領域的應用價值。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Evaluating the Performance of ChatGPT4.0 Versus ChatGPT3.5 on the Hand Surgery Self-Assessment Exam: A Comparative Analysis of Performance on Image-Based Questions.
評估 ChatGPT4.0 與 ChatGPT3.5 在手外科自我評估考試中的表現：基於影像問題的表現比較分析。 Cureus 2025-02-17

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現，發現兩者在正確率上無顯著差異（分別為30.1%和28.7%）。雖然ChatGPT4.0提供的解釋較長，但對答案的信心卻較低，尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為，以促進AI在醫療中的應用。 PubMed DOI

Can ChatGPT pass the Turkish Orthopedics and Traumatology Board Examination? Turkish orthopedic surgeons versus artificial intelligence.
ChatGPT 能否通過土耳其骨科與創傷學委員會考試？土耳其骨科醫生與人工智慧的對比。 Ulus Travma Acil Cerrahi Derg 2025-03-07

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現，分析了過去四年400道公開考題的結果。結果顯示，ChatGPT的得分超過98.7%的考生，且具統計學意義，顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色，研究仍強調人類因素的重要性，因為這些因素結合了理論與實踐知識，對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI

Matching Human Expertise: ChatGPT's Performance on Hand Surgery Examinations.
匹配人類專業知識：ChatGPT 在手外科考試中的表現。 Hand (N Y) 2025-03-21

這項研究評估了ChatGPT 4o在美國手外科學會（ASSH）自我評估問題上的表現，並與先前版本比較。研究使用2008至2013年的ASSH考試數據，透過OpenAI的API進行統計分析。結果顯示，ChatGPT 4o在增強技術的幫助下，表現與人類考生相當，明顯超越ChatGPT 3.5，且測試的可靠性很高。這些發現顯示，人工智慧，特別是ChatGPT，能有效支持醫學教育和臨床實踐，達到與人類專家相似的評估水平。 PubMed DOI

Evaluating the Ability of Artificial Intelligence to Address Nuanced Cardiology Subspecialty Questions: ChatGPT and CathSAP.
人工智慧解答心臟病次專科細緻問題的能力評估：ChatGPT 與 CathSAP J Soc Cardiovasc Angiogr Interv 2025-04-15

研究用360題心臟科考題測試ChatGPT，初始得分54.44%，給予學習資料後提升到79.16%，接近人類平均。ChatGPT在基礎科學和藥理學表現佳，但解剖學較弱，且無法處理圖片等視覺資料。顯示AI能透過學習進步，但還有待改進，未來需更多研究優化醫學教育應用。 PubMed DOI

Can Artificial Intelligence Be Successful as an Anaesthesiology and Reanimation Resident?
人工智慧能否成功擔任麻醉與重症醫學住院醫師？ Turk J Anaesthesiol Reanim 2025-04-18

這項研究發現，ChatGPT在麻醉與重症醫學考試中，表現比初階住院醫師好，但比資深住院醫師差一點，整體成績和住院醫師差不多。未來有機會把ChatGPT應用在麻醉和重症醫學的教學上，當作輔助學習的工具。 PubMed DOI

The Current Landscape of Artificial Intelligence in Plastic Surgery Education and Training: A Systematic Review.
整形外科教育與訓練中人工智慧的現況：系統性回顧 J Surg Educ 2025-05-16

AI（像 ChatGPT）在整形外科教育有潛力，能協助學習和考試，但內容偶有錯誤，證據也還不夠多。AI 可輔助基礎教學和技能評估，但無法取代專業醫師。未來需更多研究、提升技術及明確規範，才能安全有效應用。 PubMed DOI

Bridging AI and Medical Expertise: ChatGPT's Success on the Medical Specialization Residency Admission Exam in Spain.
連結 AI 與醫學專業：ChatGPT 在西班牙醫學專科住院醫師入學考試的成功 Stud Health Technol Inform 2025-05-17

ChatGPT-4參加西班牙醫師考試，200題答對150題，成績約在1,900到2,300名之間，已能申請多數醫學專科。它在有無圖片題目表現差不多，難題表現較弱，跟人類類似。研究認為AI有教育潛力，但會出錯，不能取代醫師，答案還是要專業審查。 PubMed DOI

Performance of ChatGPT on the Plastic Surgery In-Training Examination.
ChatGPT 在整形外科住院醫師訓練考試中的表現 Eplasty 2025-06-04

ChatGPT 3.5 用來測驗近十年整形外科住院醫師考題（不含圖片），正確率只有約 46%，明顯低於住院醫師平均。它在基本知識和乳房、醫美題目表現較好，但遇到需要複雜推理或手部、下肢相關題目就比較弱。整體來說，ChatGPT 現階段還不適合拿來做臨床決策或考試準備。 PubMed

原始文章

站上相關主題文章列表