The Performance of ChatGPT on the American Society for Surgery of the Hand Self-Assessment Examination.
ChatGPT 在美國手外科學會自我評估考試中的表現。 Cureus 2024-05-27

研究比較了ChatGPT-3.5和ChatGPT-4在美國手術學會自我評估考試的表現，結果發現ChatGPT-4在回答問題上比GPT-3.5更準確，尤其是對於難題。雖然實際考生得分仍高於兩者，但GPT-4相較於GPT-3.5縮小了差距。 PubMed DOI

ChatGPT's Performance on the Hand Surgery Self-Assessment Exam: A Critical Analysis.
ChatGPT 在手術自我評估考試上的表現：一個關鍵分析。 J Hand Surg Glob Online 2024-06-21

研究發現，ChatGPT 在手部外科自我評估考題中表現一般，對文字問題回答率高於圖片問題。儘管提供額外解釋，但信心與正確性不一定成正比。總括而言，ChatGPT 表現不佳，不建議單獨依賴。在使用時應謹慎，因其仍有限制。 PubMed DOI

Performance of ChatGPT on Solving Orthopedic Board-Style Questions: A Comparative Analysis of ChatGPT 3.5 and ChatGPT 4.
ChatGPT 在解決骨科考試風格問題上的表現：ChatGPT 3.5 與 ChatGPT 4 的比較分析。 Clin Orthop Surg 2024-08-02

這項研究評估了ChatGPT 3.5和4在回答骨科考試問題的表現，使用了來自首爾國立大學醫院的160道問題，分為11個子類別。結果顯示，ChatGPT 3.5的正確率為37.5%，而ChatGPT 4提升至60.0%（p < 0.001）。大部分類別中，ChatGPT 4表現較佳，唯獨在腫瘤相關問題上不如3.5。此外，ChatGPT 4的回答不一致率顯著低於3.5（9.4%對比47.5%）。雖然ChatGPT 4在骨科考試中表現不錯，但仍需謹慎對待其不一致的回答和錯誤解釋。 PubMed DOI

Evaluating the performance of ChatGPT-3.5 and ChatGPT-4 on the Taiwan plastic surgery board examination.
評估 ChatGPT-3.5 和 ChatGPT-4 在台灣整形外科考試中的表現。 Heliyon 2024-08-16

這項研究評估了ChatGPT-3.5和ChatGPT-4在台灣整形外科考試的表現，分析了過去八年的1,375道題目。結果顯示，ChatGPT-4的正確回答率為59%，明顯優於ChatGPT-3.5的41%。ChatGPT-4通過了五年的考試，而ChatGPT-3.5則未通過任何一年。具體來說，ChatGPT-4在單選題得分66%，多選題43%；而ChatGPT-3.5的單選題和多選題得分分別為48%和23%。研究建議隨著AI模型的進步，應考慮改革考試方式，並利用AI提升考試準備和評估。 PubMed DOI

The Comparative Performance of Large Language Models on the Hand Surgery Self-Assessment Examination.
大型語言模型在手外科自我評估考試中的比較表現。 Hand (N Y) 2024-09-26

這項研究評估了生成式人工智慧模型，特別是 ChatGPT 4.0 和 Bing AI，在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題，結果顯示 ChatGPT 4.0 平均得分66.5%，而 Bing AI 則為75.3%，超過 ChatGPT 8.8%。兩者均超過最低及格分數50%，但在涉及圖片和視頻的問題上表現較差。整體來看，這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

Exploring the Performance of ChatGPT in an Orthopaedic Setting and Its Potential Use as an Educational Tool.
探索 ChatGPT 在骨科環境中的表現及其作為教育工具的潛在用途。 JB JS Open Access 2024-11-27

這項研究評估了ChatGPT-4視覺版（GPT-4V）在解讀醫學影像及處理骨科創傷案例的表現。研究分析了十個來自OrthoBullets的熱門案例，並由四位專科醫生對AI的回應進行評分。結果顯示，GPT-4V在影像回應的平均得分為3.46，準確性和可信度較低，分別為3.28和3.15；而在管理問題上得分較高（3.76），治療問題表現最佳（4.04）。結論指出，GPT-4V作為教育工具有潛力，但影像解讀能力仍不及經驗豐富的醫生。 PubMed DOI

Enhancements in artificial intelligence for medical examinations: A leap from ChatGPT 3.5 to ChatGPT 4.0 in the FRCS trauma & orthopaedics examination.
人工智慧在醫學檢查中的增強：從 ChatGPT 3.5 到 ChatGPT 4.0 在 FRCS 創傷與骨科考試中的飛躍。 Surgeon 2024-11-29

ChatGPT是一款先進的人工智慧模型，能根據使用者的輸入生成類似人類的文本。最近一項研究評估了它在FRCS (Tr&Orth)考試中的表現，並比較了3.5版和4.0版的結果。雖然3.5版表現不佳，未達及格，但4.0版則取得73.9%的及格分數，顯示在臨床資訊分析和決策上有顯著進步。研究結果顯示4.0版表現比3.5版高出38.1%，並在影像問題回答上也有明顯改善，顯示人工智慧在醫療和教育領域的潛力。 PubMed DOI

Evaluating the Performance of ChatGPT 3.5 and 4.0 on StatPearls Oculoplastic Surgery Text- and Image-Based Exam Questions.
評估 ChatGPT 3.5 和 4.0 在 StatPearls 眼整形外科文本及影像考題上的表現。 Cureus 2024-12-18

這項研究評估了ChatGPT 3.5和4.0在眼整形相關問題的表現，分析了文字和圖像問題。結果顯示，ChatGPT-3.5正確回答56.85%的文字問題，而ChatGPT-4.0提升至73.46%，顯示出顯著的準確性提升。雖然ChatGPT-4.0在文字問題上表現更佳，但在圖像問題的準確率卻降至56.94%。這顯示出在醫學教育中，對大型語言模型的可靠性仍需進一步改進。 PubMed DOI

Evaluation of Chat Generative Pre-trained Transformer and Microsoft Copilot Performance on the American Society of Surgery of the Hand Self-Assessment Examinations.
Chat Generative Pre-trained Transformer 和 Microsoft Copilot 在美國手外科學會自我評估考試中的表現評估。 J Hand Surg Glob Online 2025-02-24

這項研究評估了ChatGPT-3.5、ChatGPT-4及由ChatGPT-4驅動的Microsoft Copilot在手外科自我評估考試中的表現。分析了1,000道來自美國手外科學會的問題。結果顯示，ChatGPT-3.5的正確率為51.6%，而ChatGPT-4提升至63.4%；Microsoft Copilot則為59.9%。ChatGPT-4和Microsoft Copilot的表現均優於ChatGPT-3.5，顯示出它們在醫學教育中的潛力。研究建議未來需進一步評估這些模型在不同情境下的可靠性。 PubMed DOI

Matching Human Expertise: ChatGPT's Performance on Hand Surgery Examinations.
匹配人類專業知識：ChatGPT 在手外科考試中的表現。 Hand (N Y) 2025-03-21

這項研究評估了ChatGPT 4o在美國手外科學會（ASSH）自我評估問題上的表現，並與先前版本比較。研究使用2008至2013年的ASSH考試數據，透過OpenAI的API進行統計分析。結果顯示，ChatGPT 4o在增強技術的幫助下，表現與人類考生相當，明顯超越ChatGPT 3.5，且測試的可靠性很高。這些發現顯示，人工智慧，特別是ChatGPT，能有效支持醫學教育和臨床實踐，達到與人類專家相似的評估水平。 PubMed DOI

原始文章

站上相關主題文章列表