ChatGPT goes to the operating room: evaluating GPT-4 performance and its potential in surgical education and training in the era of large language models.
ChatGPT進入手術室：評估GPT-4的表現及其在大型語言模型時代在外科教育和培訓中的潛力。 Ann Surg Treat Res 2023-05-16

研究比較了ChatGPT的GPT-3.5和GPT-4模型在解答韓國外科醫師考試問題時的表現，結果顯示GPT-4準確率高達76.4%，明顯勝過GPT-3.5的46.8%。GPT-4在各專業領域都表現穩定，但仍需搭配人類專業知識和判斷力。 PubMed DOI

Performance of ChatGPT and GPT-4 on Neurosurgery Written Board Examinations.
ChatGPT 和 GPT-4 在神經外科筆試考試中的表現。 Neurosurgery 2024-02-22

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高，未來可能應用在醫學考試上。研究發現，GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好，得分更高且答對問題更多。ChatGPT在處理複雜問題時受限，但GPT-4則表現穩定。總體而言，兩者在考試中表現不錯，GPT-4明顯比ChatGPT進步。 PubMed DOI

The performance of ChatGPT on orthopaedic in-service training exams: A comparative study of the GPT-3.5 turbo and GPT-4 models in orthopaedic education.
ChatGPT 在骨科住院培訓考試中的表現：GPT-3.5 turbo 和 GPT-4 模型在骨科教育中的比較研究。 J Orthop 2024-01-05

研究探討使用GPT-3.5 Turbo和GPT-4等AI模型進行骨科培訓考試。結果顯示，GPT-4在準確性和問題類型上優於GPT-3.5 Turbo，顯示AI在骨科領域有潛力。然而，目前AI無法取代骨科培訓，顯示醫學領域需要專門的AI培訓。 PubMed DOI

ChatGPT Earns American Board Certification in Hand Surgery.
ChatGPT 獲得美國手外科委員會認證。 Hand Surg Rehabil 2024-04-04

這項研究評估了ChatGPT-4在手外科認證考試上的表現，結果顯示其在非媒體問題上表現較好，但整體得分低於平均醫師。儘管在某些領域表現出色，但在複雜臨床判斷方面仍有改進空間。人工智能可支持醫學教育和決策，但在細緻領域仍需專業醫師。 PubMed DOI

ChatGPT Performance on the American Shoulder and Elbow Surgeons Maintenance of Certification Exam.
ChatGPT 在美國肩膀和肘部外科醫師持續認證考試中的表現。 J Shoulder Elbow Surg 2024-04-05

研究比較LLMs和外科醫師在專業考試上的表現，結果顯示人類優於LLMs，但ChatGPT展現出分析骨科資訊的能力。儘管人類整體表現更好，LLMs有潛力在深度學習進步下提升，可能與外科醫師表現匹敵。 PubMed DOI

The Performance of ChatGPT on the American Society for Surgery of the Hand Self-Assessment Examination.
ChatGPT 在美國手外科學會自我評估考試中的表現。 Cureus 2024-05-27

研究比較了ChatGPT-3.5和ChatGPT-4在美國手術學會自我評估考試的表現，結果發現ChatGPT-4在回答問題上比GPT-3.5更準確，尤其是對於難題。雖然實際考生得分仍高於兩者，但GPT-4相較於GPT-3.5縮小了差距。 PubMed DOI

ChatGPT's Performance on the Hand Surgery Self-Assessment Exam: A Critical Analysis.
ChatGPT 在手術自我評估考試上的表現：一個關鍵分析。 J Hand Surg Glob Online 2024-06-21

研究發現，ChatGPT 在手部外科自我評估考題中表現一般，對文字問題回答率高於圖片問題。儘管提供額外解釋，但信心與正確性不一定成正比。總括而言，ChatGPT 表現不佳，不建議單獨依賴。在使用時應謹慎，因其仍有限制。 PubMed DOI

Evaluation of a Large Language Model's Ability to Assist in an Orthopedic Hand Clinic.
評估大型語言模型在骨科手部診所協助能力。 Hand (N Y) 2024-06-22

研究評估在整形外科手部診所使用OpenAI的ChatGPT作為臨床助手，發現其在診斷病例上有78%的準確度，但處理複雜病理和識別故意錯誤有困難。在指導患者管理和提供治療建議方面表現也受到評價。儘管在診斷上成功率高，但整體建議實用性有待改進。 PubMed DOI

Performance of trauma-trained large language models on surgical assessment questions: A new approach in resource identification.
創傷訓練大型語言模型在外科評估問題上的表現：資源識別的新方法。 Surgery 2024-09-24

這項研究探討大型語言模型（LLMs）在外科教育中的應用，特別是準備外科專科考試。研究人員開發了EAST-GPT和ACS-GPT兩個自訂模型，並與未經訓練的GPT-4進行比較。結果顯示，EAST-GPT正確回答76%的問題，ACS-GPT則68%，均優於GPT-4的45%。EAST-GPT在推理質量上表現優異，而ACS-GPT在全面性和證據基礎上稍遜。這項研究顯示LLM在外科教育中的潛力，值得進一步探索。 PubMed DOI

The Comparative Performance of Large Language Models on the Hand Surgery Self-Assessment Examination.
大型語言模型在手外科自我評估考試中的比較表現。 Hand (N Y) 2024-09-26

這項研究評估了生成式人工智慧模型，特別是 ChatGPT 4.0 和 Bing AI，在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題，結果顯示 ChatGPT 4.0 平均得分66.5%，而 Bing AI 則為75.3%，超過 ChatGPT 8.8%。兩者均超過最低及格分數50%，但在涉及圖片和視頻的問題上表現較差。整體來看，這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

原始文章

站上相關主題文章列表