ChatGPT goes to the operating room: evaluating GPT-4 performance and its potential in surgical education and training in the era of large language models.
ChatGPT進入手術室：評估GPT-4的表現及其在大型語言模型時代在外科教育和培訓中的潛力。 Ann Surg Treat Res 2023-05-16

研究比較了ChatGPT的GPT-3.5和GPT-4模型在解答韓國外科醫師考試問題時的表現，結果顯示GPT-4準確率高達76.4%，明顯勝過GPT-3.5的46.8%。GPT-4在各專業領域都表現穩定，但仍需搭配人類專業知識和判斷力。 PubMed DOI

Performance of ChatGPT and GPT-4 on Neurosurgery Written Board Examinations.
ChatGPT 和 GPT-4 在神經外科筆試考試中的表現。 Neurosurgery 2024-02-22

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高，未來可能應用在醫學考試上。研究發現，GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好，得分更高且答對問題更多。ChatGPT在處理複雜問題時受限，但GPT-4則表現穩定。總體而言，兩者在考試中表現不錯，GPT-4明顯比ChatGPT進步。 PubMed DOI

Evaluating ChatGPT Performance on the Orthopaedic In-Training Examination.
評估 ChatGPT 在骨科住院醫師考試中的表現。 JB JS Open Access 2023-09-13

研究比較了ChatGPT和GPT-4在沒有圖像的骨科住院醫師考試（OITE）上的表現。ChatGPT在PGY-1級別回答問題的準確率為54.3%，並有47.2%引用來源，期刊影響因子為5.4。GPT-4在PGY-5級別回答問題的準確率為73.6%，並有87.9%引用來源，期刊影響因子為5.2。結果顯示GPT-4優於平均PGY-5級別，顯示明顯進步。AI有潛力提升醫學教育和醫療服務效率。 PubMed DOI

The performance of ChatGPT on orthopaedic in-service training exams: A comparative study of the GPT-3.5 turbo and GPT-4 models in orthopaedic education.
ChatGPT 在骨科住院培訓考試中的表現：GPT-3.5 turbo 和 GPT-4 模型在骨科教育中的比較研究。 J Orthop 2024-01-05

研究探討使用GPT-3.5 Turbo和GPT-4等AI模型進行骨科培訓考試。結果顯示，GPT-4在準確性和問題類型上優於GPT-3.5 Turbo，顯示AI在骨科領域有潛力。然而，目前AI無法取代骨科培訓，顯示醫學領域需要專門的AI培訓。 PubMed DOI

Can generative artificial intelligence pass the orthopaedic board examination?
生成式人工智慧能通過骨科委員會考試嗎？ J Orthop 2024-03-08

研究指出，ChatGPT在骨科住院醫師培訓考試中表現優異，尤其在基礎科學、腫瘤學、肩膀/肘部和運動方面表現突出。問題分為管理、診斷和知識回憶三類，ChatGPT在提供委員會風格問題的臨床結論方面有潛力。然而，其推理能力仍需進一步評估。ChatGPT在臨床教育中有廣泛應用前景，有助於準確解答臨床問題。 PubMed DOI

A Comparison Between GPT-3.5, GPT-4, and GPT-4V: Can the Large Language Model (ChatGPT) Pass the Japanese Board of Orthopaedic Surgery Examination?
GPT-3.5、GPT-4 和 GPT-4V 之比較：大型語言模型(ChatGPT) 能通過日本骨科醫學會考試嗎？ Cureus 2024-04-18

大型語言模型如ChatGPT發展迅速，據報導，GPT-3.5已達到醫學考試水準。新GPT-4V有圖像識別功能，對醫學有潛力。研究顯示GPT-4在骨科手術表現優於GPT-3.5，GPT-4V也有潛力。ChatGPT可通過骨科專科醫師考試，未來應用需更多訓練數據。 PubMed DOI

ChatGPT Performs at the Level of a Third-Year Orthopaedic Surgery Resident on the Orthopaedic In-Training Examination.
ChatGPT在骨科住院醫師培訓考試中表現達到三年級骨科住院醫師水準。 JB JS Open Access 2024-04-19

研究發現AI語言模型ChatGPT在2021年骨科住院醫師培訓考試（OITE）中表現不錯，得分61.2%，跟一名平均第三年的醫師相當。評審間一致，回答合理。未來需進一步研究對學習和考試的長期影響。 PubMed DOI

Inadequate Performance of ChatGPT on Orthopedic Board-Style Written Exams.
ChatGPT 在骨科考試風格的書面考試中表現不佳。 Cureus 2024-07-22

這項研究評估了ChatGPT（GPT-3.5）在骨科知識和推理能力的表現，測試了472道來自不同來源的考題。結果顯示，ChatGPT的正確回答率為55.9%，且92.8%的正確答案與資料解釋一致。雖然它運用了內外部資訊和邏輯推理，但在81.7%的錯誤回答中未能識別必要資訊。整體來看，ChatGPT的表現低於美國骨科外科醫學委員會考試的通過門檻，與實習醫生或二年級住院醫師相當，顯示出在準確識別資訊方面的重大限制。 PubMed DOI

Performance of ChatGPT-3.5 and ChatGPT-4 on the European Board of Urology (EBU) exams: a comparative analysis.
ChatGPT-3.5 和 ChatGPT-4 在歐洲泌尿學委員會 (EBU) 考試中的表現：比較分析。 World J Urol 2024-07-26

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現，特別是版本3.5和4。分析了2017至2022年的多選題，結果顯示ChatGPT-4在所有考試中表現優於3.5，且每次考試都達到及格分數（≥60%）。不過，ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看，研究指出ChatGPT-4能有效回答複雜醫學問題，但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

Artificial Intelligence in Orthopaedics: Performance of ChatGPT on Text and Image Questions on a Complete AAOS Orthopaedic In-Training Examination (OITE).
人工智慧在骨科的應用：ChatGPT 在完整的 AAOS 骨科住院醫師訓練考試 (OITE) 中對文本和影像問題的表現。 J Surg Educ 2024-09-16

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示，ChatGPT在純文字問題的正確率為49%，而帶有圖片的問題為48%。當圖片描述由AI生成時，表現下降6%。整體來看，ChatGPT的表現低於所有住院醫師班級，尤其比一年級住院醫師低4%。研究指出，雖然ChatGPT在醫學考試中有一定能力，但仍未達到住院醫師的水準，顯示AI在醫學教育中的潛力與限制。 PubMed DOI

原始文章

站上相關主題文章列表