Performance of ChatGPT-3.5 and ChatGPT-4 on the European Board of Urology (EBU) exams: a comparative analysis.
ChatGPT-3.5 和 ChatGPT-4 在歐洲泌尿學委員會 (EBU) 考試中的表現：比較分析。 World J Urol 2024-07-26

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現，特別是版本3.5和4。分析了2017至2022年的多選題，結果顯示ChatGPT-4在所有考試中表現優於3.5，且每次考試都達到及格分數（≥60%）。不過，ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看，研究指出ChatGPT-4能有效回答複雜醫學問題，但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

Evaluating the Performance of ChatGPT4.0 Versus ChatGPT3.5 on the Hand Surgery Self-Assessment Exam: A Comparative Analysis of Performance on Image-Based Questions.
評估 ChatGPT4.0 與 ChatGPT3.5 在手外科自我評估考試中的表現：基於影像問題的表現比較分析。 Cureus 2025-02-17

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現，發現兩者在正確率上無顯著差異（分別為30.1%和28.7%）。雖然ChatGPT4.0提供的解釋較長，但對答案的信心卻較低，尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為，以促進AI在醫療中的應用。 PubMed DOI

Evaluation of Chat Generative Pre-trained Transformer and Microsoft Copilot Performance on the American Society of Surgery of the Hand Self-Assessment Examinations.
Chat Generative Pre-trained Transformer 和 Microsoft Copilot 在美國手外科學會自我評估考試中的表現評估。 J Hand Surg Glob Online 2025-02-24

這項研究評估了ChatGPT-3.5、ChatGPT-4及由ChatGPT-4驅動的Microsoft Copilot在手外科自我評估考試中的表現。分析了1,000道來自美國手外科學會的問題。結果顯示，ChatGPT-3.5的正確率為51.6%，而ChatGPT-4提升至63.4%；Microsoft Copilot則為59.9%。ChatGPT-4和Microsoft Copilot的表現均優於ChatGPT-3.5，顯示出它們在醫學教育中的潛力。研究建議未來需進一步評估這些模型在不同情境下的可靠性。 PubMed DOI

Can ChatGPT pass the Turkish Orthopedics and Traumatology Board Examination? Turkish orthopedic surgeons versus artificial intelligence.
ChatGPT 能否通過土耳其骨科與創傷學委員會考試？土耳其骨科醫生與人工智慧的對比。 Ulus Travma Acil Cerrahi Derg 2025-03-07

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現，分析了過去四年400道公開考題的結果。結果顯示，ChatGPT的得分超過98.7%的考生，且具統計學意義，顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色，研究仍強調人類因素的重要性，因為這些因素結合了理論與實踐知識，對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI

Matching Human Expertise: ChatGPT's Performance on Hand Surgery Examinations.
匹配人類專業知識：ChatGPT 在手外科考試中的表現。 Hand (N Y) 2025-03-21

這項研究評估了ChatGPT 4o在美國手外科學會（ASSH）自我評估問題上的表現，並與先前版本比較。研究使用2008至2013年的ASSH考試數據，透過OpenAI的API進行統計分析。結果顯示，ChatGPT 4o在增強技術的幫助下，表現與人類考生相當，明顯超越ChatGPT 3.5，且測試的可靠性很高。這些發現顯示，人工智慧，特別是ChatGPT，能有效支持醫學教育和臨床實踐，達到與人類專家相似的評估水平。 PubMed DOI

Assessing the Usability of ChatGPT Responses Compared to Other Online Information in Hand Surgery.
評估 ChatGPT 回應的可用性與其他線上資訊在手外科中的比較。 Hand (N Y) 2025-04-12

這項研究評估了手部手術相關的線上醫療資訊，並比較了Google、ChatGPT-3.5和ChatGPT-4.0的回應。研究針對腕隧道症候群、網球肘和富血小板血漿用於拇指關節炎三個問題進行分析。主要發現包括： 1. **可讀性**：Google的回應較易讀，平均在八年級水平，而ChatGPT則在大學二年級水平。低共識主題的可讀性普遍較差。 2. **可靠性與準確性**：ChatGPT-4的可靠性與3.5相似，但低共識主題的可讀性較低，準確性差異不大。 3. **覆蓋範圍**：ChatGPT-4和Google在疾病原因和程序細節的覆蓋上有所不同，但在解剖學和病理生理學上相似。總結來說，雖然ChatGPT能提供可靠的醫療資訊，但可讀性較差，醫療提供者需注意其局限性。 PubMed DOI

Comparison of ChatGPT plus (version 4.0) and pretrained AI model (Orthopod) on orthopaedic in-training exam (OITE).
ChatGPT plus（版本4.0）與預訓練AI模型（Orthopod）在骨科住院醫師訓練考試（OITE）上的比較 Surgeon 2025-04-22

這項研究發現，ChatGPT-4 和專門訓練的 Orthopod 模型在骨科住院醫師考題上的表現差不多，答對率分別為 73.4% 和 71.0%，沒有明顯差異。兩者都能提供清楚、有條理的解釋，對骨科住院醫師準備專科考試很有幫助。 PubMed DOI

Artificial Intelligence vs. Human Cognition: A Comparative Analysis of ChatGPT and Candidates Sitting the European Board of Ophthalmology Diploma Examination.
人工智慧與人類認知：ChatGPT 與參加歐洲眼科醫學會文憑考試考生的比較分析 Vision (Basel) 2025-04-23

這項研究發現，ChatGPT-3.5 Turbo在歐洲眼科醫學會考試的多重是非題表現不錯，平均得分64.4%，但在單一最佳答案題型只拿到28.4%，明顯輸給人類考生。它在資訊查找上較強，但知識整合能力較弱。整體來說，ChatGPT適合當作眼科考試準備和回饋的輔助工具。 PubMed DOI

Can Artificial Intelligence Pass the Written European Board of Hand Surgery Exam?
人工智慧能通過歐洲手外科書面考試嗎？ Hand Surg Rehabil 2025-05-30

這項研究比較多款AI聊天機器人在手外科考試的表現，發現大多數都能通過考試，其中以ChatGPT-4o1最優秀。雖然AI在專科醫學領域展現不錯的專業能力，但不同AI的準確度和可靠性還是有落差。 PubMed DOI

Performance of ChatGPT on the Plastic Surgery In-Training Examination.
ChatGPT 在整形外科住院醫師訓練考試中的表現 Eplasty 2025-06-04

ChatGPT 3.5 用來測驗近十年整形外科住院醫師考題（不含圖片），正確率只有約 46%，明顯低於住院醫師平均。它在基本知識和乳房、醫美題目表現較好，但遇到需要複雜推理或手部、下肢相關題目就比較弱。整體來說，ChatGPT 現階段還不適合拿來做臨床決策或考試準備。 PubMed

原始文章

站上相關主題文章列表