Evaluating the Performance of ChatGPT4.0 Versus ChatGPT3.5 on the Hand Surgery Self-Assessment Exam: A Comparative Analysis of Performance on Image-Based Questions.
評估 ChatGPT4.0 與 ChatGPT3.5 在手外科自我評估考試中的表現：基於影像問題的表現比較分析。 Cureus 2025-02-17

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現，發現兩者在正確率上無顯著差異（分別為30.1%和28.7%）。雖然ChatGPT4.0提供的解釋較長，但對答案的信心卻較低，尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為，以促進AI在醫療中的應用。 PubMed DOI

Can ChatGPT pass the Turkish Orthopedics and Traumatology Board Examination? Turkish orthopedic surgeons versus artificial intelligence.
ChatGPT 能否通過土耳其骨科與創傷學委員會考試？土耳其骨科醫生與人工智慧的對比。 Ulus Travma Acil Cerrahi Derg 2025-03-07

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現，分析了過去四年400道公開考題的結果。結果顯示，ChatGPT的得分超過98.7%的考生，且具統計學意義，顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色，研究仍強調人類因素的重要性，因為這些因素結合了理論與實踐知識，對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI

Matching Human Expertise: ChatGPT's Performance on Hand Surgery Examinations.
匹配人類專業知識：ChatGPT 在手外科考試中的表現。 Hand (N Y) 2025-03-21

這項研究評估了ChatGPT 4o在美國手外科學會（ASSH）自我評估問題上的表現，並與先前版本比較。研究使用2008至2013年的ASSH考試數據，透過OpenAI的API進行統計分析。結果顯示，ChatGPT 4o在增強技術的幫助下，表現與人類考生相當，明顯超越ChatGPT 3.5，且測試的可靠性很高。這些發現顯示，人工智慧，特別是ChatGPT，能有效支持醫學教育和臨床實踐，達到與人類專家相似的評估水平。 PubMed DOI

Breaking Bones, Breaking Barriers: ChatGPT, DeepSeek, and Gemini in Hand Fracture Management.
打破骨頭，打破障礙：ChatGPT、DeepSeek 和 Gemini 在手部骨折管理中的應用。 J Clin Med 2025-03-27

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性，並與經驗豐富的外科醫生進行比較。結果顯示，ChatGPT-4o的準確率最高，但精確度較低；DeepSeek-V3表現中等，偶爾漏掉正確方案；而Gemini 1.5則表現不佳。結論指出，雖然AI能增強臨床流程，但在複雜案例中仍無法取代人類專業，且需解決倫理問題才能廣泛應用。 PubMed DOI

Artificial Intelligence vs. Human Cognition: A Comparative Analysis of ChatGPT and Candidates Sitting the European Board of Ophthalmology Diploma Examination.
人工智慧與人類認知：ChatGPT 與參加歐洲眼科醫學會文憑考試考生的比較分析 Vision (Basel) 2025-04-23

這項研究發現，ChatGPT-3.5 Turbo在歐洲眼科醫學會考試的多重是非題表現不錯，平均得分64.4%，但在單一最佳答案題型只拿到28.4%，明顯輸給人類考生。它在資訊查找上較強，但知識整合能力較弱。整體來說，ChatGPT適合當作眼科考試準備和回饋的輔助工具。 PubMed DOI

Advancing emergency upper extremity care: A pilot study of ChatGPT's potential role in diagnosing and managing hand and wrist trauma.
提升急診上肢照護：ChatGPT 在診斷與處理手部及腕部創傷潛在角色的初步研究 J Hand Microsurg 2025-05-12

這項研究發現，ChatGPT-4 在診斷和處理常見手部、手腕創傷時，表現和整形外科住院醫師差不多，甚至在急診處置上更優秀。AI 有潛力成為急診室醫師的好幫手，但還是建議當作輔助工具，不能完全取代專業醫師的判斷。 PubMed DOI

The Growing Role of Artificial Intelligence in Surgical Education: ChatGPT Undertakes the Australian Generic Surgical Sciences Examination.
人工智慧在外科教育中日益增長的角色：ChatGPT 參與澳洲通用外科科學考試 ANZ J Surg 2025-05-30

ChatGPT 在通用外科考試拿到 72.7 分，超過及格線，生理學和選擇題表現不錯，但解剖學和需要分析的題目比較弱。雖然有潛力協助醫學教育，但還有不少限制，未來要再多研究和評估，才能廣泛應用。 PubMed DOI

Comparison of hand surgery certification exams in Europe and the United States using ChatGPT 4.0.
使用 ChatGPT 4.0 比較歐洲與美國的手部外科認證考試 J Hand Microsurg 2025-06-06

這項研究發現，ChatGPT 4.0 在美國手外科認證考題表現較好，且多作幾次會進步，但遇到歐洲較難的題目時，表現還是不好。結果顯示歐洲考題比美國難，也反映兩地認證標準不同。雖然 ChatGPT 有助於考試標準化，但表現還是輸給人類考生。 PubMed DOI

Dall-E in hand surgery: Exploring the utility of ChatGPT image generation.
Dall-E 在手部外科的應用：探討 ChatGPT 影像生成的實用性 Surg Open Sci 2025-06-09

這項研究發現，ChatGPT-4.5在手外科教育上，提供的資訊比3.5版更正確、好懂又實用；GPT-4o則能產生最精確的醫學影像。雖然AI工具在手外科教育很有潛力，但還需要再改進，才能真正應用在臨床上。 PubMed DOI

Five advanced chatbots solving European Diploma in Radiology (EDiR) text-based questions: differences in performance and consistency.
五種先進聊天機器人在解決歐洲放射學文憑（EDiR）文字題的表現與一致性差異 Eur Radiol Exp 2025-08-19

最新研究比較五款主流AI聊天機器人在歐洲放射學文憑考題上的表現，發現Claude 3.5 Sonnet在正確率、自信和一致性都拿下第一，ChatGPT-4o緊追在後。這些AI整體表現甚至超越人類考生，但各自的穩定度和自信還是有差異，提醒大家在臨床或教育等重要場合使用時要特別小心。 PubMed DOI

原始文章

站上相關主題文章列表