The performance of ChatGPT on orthopaedic in-service training exams: A comparative study of the GPT-3.5 turbo and GPT-4 models in orthopaedic education.
ChatGPT 在骨科住院培訓考試中的表現：GPT-3.5 turbo 和 GPT-4 模型在骨科教育中的比較研究。 J Orthop 2024-01-05

研究探討使用GPT-3.5 Turbo和GPT-4等AI模型進行骨科培訓考試。結果顯示，GPT-4在準確性和問題類型上優於GPT-3.5 Turbo，顯示AI在骨科領域有潛力。然而，目前AI無法取代骨科培訓，顯示醫學領域需要專門的AI培訓。 PubMed DOI

Can generative artificial intelligence pass the orthopaedic board examination?
生成式人工智慧能通過骨科委員會考試嗎？ J Orthop 2024-03-08

研究指出，ChatGPT在骨科住院醫師培訓考試中表現優異，尤其在基礎科學、腫瘤學、肩膀/肘部和運動方面表現突出。問題分為管理、診斷和知識回憶三類，ChatGPT在提供委員會風格問題的臨床結論方面有潛力。然而，其推理能力仍需進一步評估。ChatGPT在臨床教育中有廣泛應用前景，有助於準確解答臨床問題。 PubMed DOI

ChatGPT Performs at the Level of a Third-Year Orthopaedic Surgery Resident on the Orthopaedic In-Training Examination.
ChatGPT在骨科住院醫師培訓考試中表現達到三年級骨科住院醫師水準。 JB JS Open Access 2024-04-19

研究發現AI語言模型ChatGPT在2021年骨科住院醫師培訓考試（OITE）中表現不錯，得分61.2%，跟一名平均第三年的醫師相當。評審間一致，回答合理。未來需進一步研究對學習和考試的長期影響。 PubMed DOI

Performance of ChatGPT on Solving Orthopedic Board-Style Questions: A Comparative Analysis of ChatGPT 3.5 and ChatGPT 4.
ChatGPT 在解決骨科考試風格問題上的表現：ChatGPT 3.5 與 ChatGPT 4 的比較分析。 Clin Orthop Surg 2024-08-02

這項研究評估了ChatGPT 3.5和4在回答骨科考試問題的表現，使用了來自首爾國立大學醫院的160道問題，分為11個子類別。結果顯示，ChatGPT 3.5的正確率為37.5%，而ChatGPT 4提升至60.0%（p < 0.001）。大部分類別中，ChatGPT 4表現較佳，唯獨在腫瘤相關問題上不如3.5。此外，ChatGPT 4的回答不一致率顯著低於3.5（9.4%對比47.5%）。雖然ChatGPT 4在骨科考試中表現不錯，但仍需謹慎對待其不一致的回答和錯誤解釋。 PubMed DOI

Artificial Intelligence in Orthopaedics: Performance of ChatGPT on Text and Image Questions on a Complete AAOS Orthopaedic In-Training Examination (OITE).
人工智慧在骨科的應用：ChatGPT 在完整的 AAOS 骨科住院醫師訓練考試 (OITE) 中對文本和影像問題的表現。 J Surg Educ 2024-09-16

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示，ChatGPT在純文字問題的正確率為49%，而帶有圖片的問題為48%。當圖片描述由AI生成時，表現下降6%。整體來看，ChatGPT的表現低於所有住院醫師班級，尤其比一年級住院醫師低4%。研究指出，雖然ChatGPT在醫學考試中有一定能力，但仍未達到住院醫師的水準，顯示AI在醫學教育中的潛力與限制。 PubMed DOI

Exploring the Performance of ChatGPT in an Orthopaedic Setting and Its Potential Use as an Educational Tool.
探索 ChatGPT 在骨科環境中的表現及其作為教育工具的潛在用途。 JB JS Open Access 2024-11-27

這項研究評估了ChatGPT-4視覺版（GPT-4V）在解讀醫學影像及處理骨科創傷案例的表現。研究分析了十個來自OrthoBullets的熱門案例，並由四位專科醫生對AI的回應進行評分。結果顯示，GPT-4V在影像回應的平均得分為3.46，準確性和可信度較低，分別為3.28和3.15；而在管理問題上得分較高（3.76），治療問題表現最佳（4.04）。結論指出，GPT-4V作為教育工具有潛力，但影像解讀能力仍不及經驗豐富的醫生。 PubMed DOI

Comparing performances of french orthopaedic surgery residents with the artificial intelligence ChatGPT-4/4o in the French diploma exams of orthopaedic and trauma surgery.
比較法國骨科外科住院醫師與人工智慧 ChatGPT-4/4o 在法國骨科及創傷外科文憑考試中的表現。 Orthop Traumatol Surg Res 2024-12-06

這項研究評估了ChatGPT版本4和4o在法國骨科與創傷外科考試（DES）中的表現，並與法國住院醫師進行比較。分析250道2020至2024年的考題，結果顯示ChatGPT-4o得分74.8%，接近住院醫師的70.8%（p = 0.32），且明顯優於版本4的58.8%（p = 0.0001）。不過，AI在圖像分析上表現不佳，版本4成功率48%，4o為65%。總體來看，ChatGPT-4o的表現與法國學生相當，顯示出顯著進步，但在圖像分析上仍有挑戰。 PubMed DOI

Evaluating the Performance of ChatGPT4.0 Versus ChatGPT3.5 on the Hand Surgery Self-Assessment Exam: A Comparative Analysis of Performance on Image-Based Questions.
評估 ChatGPT4.0 與 ChatGPT3.5 在手外科自我評估考試中的表現：基於影像問題的表現比較分析。 Cureus 2025-02-17

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現，發現兩者在正確率上無顯著差異（分別為30.1%和28.7%）。雖然ChatGPT4.0提供的解釋較長，但對答案的信心卻較低，尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為，以促進AI在醫療中的應用。 PubMed DOI

Can ChatGPT pass the Turkish Orthopedics and Traumatology Board Examination? Turkish orthopedic surgeons versus artificial intelligence.
ChatGPT 能否通過土耳其骨科與創傷學委員會考試？土耳其骨科醫生與人工智慧的對比。 Ulus Travma Acil Cerrahi Derg 2025-03-07

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現，分析了過去四年400道公開考題的結果。結果顯示，ChatGPT的得分超過98.7%的考生，且具統計學意義，顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色，研究仍強調人類因素的重要性，因為這些因素結合了理論與實踐知識，對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI

EVALUATION OF THE PERFORMANCE OF CHATGPT/ARTIFICIAL INTELLIGENCE IN THE MULTIPLE-CHOICE TEST TO OBTAIN THE TITLE OF SPECIALIST IN ORTHOPEDICS AND TRAUMATOLOGY.
評估 ChatGPT/人工智慧在獲得骨科與創傷科專科醫師資格的多選測驗中的表現。 Acta Ortop Bras 2025-04-10

這項研究評估了ChatGPT 4.0在2022年骨科與創傷學專科考試的多選題表現，分析了95道題目，正確率為61.05%。結果顯示，無論問題字數或分類，表現差異不大。雖然ChatGPT在骨科知識上表現不錯，但仍需進一步發展和人類監督，以確保其有效性。這項研究屬於第四級證據，屬於病例系列。 PubMed DOI

原始文章

站上相關主題文章列表