ChatGPT Earns American Board Certification in Hand Surgery.
ChatGPT 獲得美國手外科委員會認證。 Hand Surg Rehabil 2024-04-04

這項研究評估了ChatGPT-4在手外科認證考試上的表現，結果顯示其在非媒體問題上表現較好，但整體得分低於平均醫師。儘管在某些領域表現出色，但在複雜臨床判斷方面仍有改進空間。人工智能可支持醫學教育和決策，但在細緻領域仍需專業醫師。 PubMed DOI

ChatGPT Performance on the American Shoulder and Elbow Surgeons Maintenance of Certification Exam.
ChatGPT 在美國肩膀和肘部外科醫師持續認證考試中的表現。 J Shoulder Elbow Surg 2024-04-05

研究比較LLMs和外科醫師在專業考試上的表現，結果顯示人類優於LLMs，但ChatGPT展現出分析骨科資訊的能力。儘管人類整體表現更好，LLMs有潛力在深度學習進步下提升，可能與外科醫師表現匹敵。 PubMed DOI

The Performance of ChatGPT on the American Society for Surgery of the Hand Self-Assessment Examination.
ChatGPT 在美國手外科學會自我評估考試中的表現。 Cureus 2024-05-27

研究比較了ChatGPT-3.5和ChatGPT-4在美國手術學會自我評估考試的表現，結果發現ChatGPT-4在回答問題上比GPT-3.5更準確，尤其是對於難題。雖然實際考生得分仍高於兩者，但GPT-4相較於GPT-3.5縮小了差距。 PubMed DOI

ChatGPT's Performance on the Hand Surgery Self-Assessment Exam: A Critical Analysis.
ChatGPT 在手術自我評估考試上的表現：一個關鍵分析。 J Hand Surg Glob Online 2024-06-21

研究發現，ChatGPT 在手部外科自我評估考題中表現一般，對文字問題回答率高於圖片問題。儘管提供額外解釋，但信心與正確性不一定成正比。總括而言，ChatGPT 表現不佳，不建議單獨依賴。在使用時應謹慎，因其仍有限制。 PubMed DOI

Assessing the Efficacy of an AI-Powered Chatbot (ChatGPT) in Providing Information on Orthopedic Surgeries: A Comparative Study With Expert Opinion.
評估 AI 驅動的聊天機器人 (ChatGPT) 在提供骨科手術資訊方面的效能：與專家意見的比較研究。 Cureus 2024-07-29

這項研究探討了開放存取的人工智慧軟體ChatGPT在回答與骨科手術相關的病人問題的準確性。研究聚焦於六種手術，包括前交叉韌帶重建和全髖關節置換等。研究者向ChatGPT提出標準問題，並將其回答與專家意見比較，結果顯示平均得分為2.43，顯示與專家意見有一定一致性。研究指出，ChatGPT可能成為病人了解手術選擇的有用工具，但仍需進一步研究以驗證結果並探討其在外科實踐中的應用。 PubMed DOI

The Comparative Performance of Large Language Models on the Hand Surgery Self-Assessment Examination.
大型語言模型在手外科自我評估考試中的比較表現。 Hand (N Y) 2024-09-26

這項研究評估了生成式人工智慧模型，特別是 ChatGPT 4.0 和 Bing AI，在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題，結果顯示 ChatGPT 4.0 平均得分66.5%，而 Bing AI 則為75.3%，超過 ChatGPT 8.8%。兩者均超過最低及格分數50%，但在涉及圖片和視頻的問題上表現較差。整體來看，這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

The Performance of a Customized Generative Pre-trained Transformer on the American Society for Surgery of the Hand Self-Assessment Examination.
美國手外科學會自我評估考試中定制生成預訓練變壓器的表現。 Cureus 2024-10-28

這項研究評估了一個針對手外科知識調整的ChatGPT客製化多模態大型語言模型。結果顯示，這個模型在回答文本選擇題時準確率達89.9%，優於標準的GPT-4（76.5%）。人類考生的表現也相似，正確率為87.3%。在圖像問題方面，客製化模型的準確率為75.3%，但無圖像時降至69.9%。人類考生在圖像問題上表現稍佳（87.2%）。總體來看，這顯示客製化模型在手外科文本問題上有顯著進步，但圖像解釋仍需加強，建議可開發專門的GPT模型以提升教育與臨床應用。 PubMed DOI

Enhancements in artificial intelligence for medical examinations: A leap from ChatGPT 3.5 to ChatGPT 4.0 in the FRCS trauma & orthopaedics examination.
人工智慧在醫學檢查中的增強：從 ChatGPT 3.5 到 ChatGPT 4.0 在 FRCS 創傷與骨科考試中的飛躍。 Surgeon 2024-11-29

ChatGPT是一款先進的人工智慧模型，能根據使用者的輸入生成類似人類的文本。最近一項研究評估了它在FRCS (Tr&Orth)考試中的表現，並比較了3.5版和4.0版的結果。雖然3.5版表現不佳，未達及格，但4.0版則取得73.9%的及格分數，顯示在臨床資訊分析和決策上有顯著進步。研究結果顯示4.0版表現比3.5版高出38.1%，並在影像問題回答上也有明顯改善，顯示人工智慧在醫療和教育領域的潛力。 PubMed DOI

Evaluating the Performance of ChatGPT4.0 Versus ChatGPT3.5 on the Hand Surgery Self-Assessment Exam: A Comparative Analysis of Performance on Image-Based Questions.
評估 ChatGPT4.0 與 ChatGPT3.5 在手外科自我評估考試中的表現：基於影像問題的表現比較分析。 Cureus 2025-02-17

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現，發現兩者在正確率上無顯著差異（分別為30.1%和28.7%）。雖然ChatGPT4.0提供的解釋較長，但對答案的信心卻較低，尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為，以促進AI在醫療中的應用。 PubMed DOI

Evaluation of Chat Generative Pre-trained Transformer and Microsoft Copilot Performance on the American Society of Surgery of the Hand Self-Assessment Examinations.
Chat Generative Pre-trained Transformer 和 Microsoft Copilot 在美國手外科學會自我評估考試中的表現評估。 J Hand Surg Glob Online 2025-02-24

這項研究評估了ChatGPT-3.5、ChatGPT-4及由ChatGPT-4驅動的Microsoft Copilot在手外科自我評估考試中的表現。分析了1,000道來自美國手外科學會的問題。結果顯示，ChatGPT-3.5的正確率為51.6%，而ChatGPT-4提升至63.4%；Microsoft Copilot則為59.9%。ChatGPT-4和Microsoft Copilot的表現均優於ChatGPT-3.5，顯示出它們在醫學教育中的潛力。研究建議未來需進一步評估這些模型在不同情境下的可靠性。 PubMed DOI

原始文章

站上相關主題文章列表