Pediatric Supracondylar Humerus and Diaphyseal Femur Fractures: A Comparative Analysis of Chat Generative Pretrained Transformer and Google Gemini Recommendations Versus American Academy of Orthopaedic Surgeons Clinical Practice Guidelines.
小兒肱骨上髁骨折與股骨幹骨折：Chat Generative Pretrained Transformer 和 Google Gemini 建議與美國骨科醫學會臨床實踐指導方針的比較分析。 J Pediatr Orthop 2025-01-14

這項研究評估了三款AI聊天機器人（ChatGPT-4.0、ChatGPT-3.5和Google Gemini）在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示，ChatGPT-4.0和Google Gemini的準確率較高，分別為11項和9項建議。雖然所有機器人都提供了補充資訊，但修改需求各異，且可讀性方面Google Gemini表現較佳。整體而言，這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

Evaluating the Evolution of ChatGPT as an Information Resource in Shoulder and Elbow Surgery.
評估 ChatGPT 作為肩膀和肘部外科資訊資源的演變。 Orthopedics 2025-01-29

這項研究評估了ChatGPT（3.5和4版本）在提供肩膀和肘部手術資訊的準確性，分析了114個問題。結果顯示，ChatGPT 3.5的正確率為52.3%，而ChatGPT 4則達到73.3%。雖然3.5在不穩定性類別表現較佳，但4在大多數其他類別中表現更優。兩者的表現都超過50%的熟練度，但仍無法取代臨床決策。研究建議進一步改善ChatGPT的訓練，以提升其作為醫療資訊資源的效用。 PubMed DOI

Evaluating the Quality and Readability of Information Provided by Generative Artificial Intelligence Chatbots on Clavicle Fracture Treatment Options.
評估生成式人工智慧聊天機器人提供的鎖骨骨折治療選項資訊的質量和可讀性。 Cureus 2025-02-10

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果，包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異，但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看，這些AI模型在病患教育中表現良好，特別是Microsoft Copilot和Perplexity，適合用於提供鎖骨骨折相關資訊。 PubMed DOI

Evaluating the Performance of ChatGPT4.0 Versus ChatGPT3.5 on the Hand Surgery Self-Assessment Exam: A Comparative Analysis of Performance on Image-Based Questions.
評估 ChatGPT4.0 與 ChatGPT3.5 在手外科自我評估考試中的表現：基於影像問題的表現比較分析。 Cureus 2025-02-17

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現，發現兩者在正確率上無顯著差異（分別為30.1%和28.7%）。雖然ChatGPT4.0提供的解釋較長，但對答案的信心卻較低，尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為，以促進AI在醫療中的應用。 PubMed DOI

Assessment and Comparison of Artificial Intelligence generated Information Regarding Shoulder Arthroplasty from Multiple Interfaces.
多個介面中人工智慧生成的肩關節置換手術資訊的評估與比較。 J Shoulder Elbow Surg 2025-02-19

這項研究評估了OpenAI的ChatGPT和微軟的Copilot在解剖性全肩關節置換術（aTSA）和反向全肩關節置換術（rTSA）資訊上的質量與可讀性。研究發現，兩者的資訊質量均為「良好」，但Copilot在政策問題上表現更佳，且引用的學術來源較多，顯示其資訊更可靠且易於理解。雖然兩者都能提供有用的資訊，但仍建議將它們視為輔助資源，而非主要資訊來源，因為語言複雜性可能影響病人的理解。 PubMed DOI

Artificial intelligence versus orthopedic surgeons as an orthopedic consultant in the emergency department.
人工智慧與骨科醫生在急診部門作為骨科顧問的比較。 Injury 2025-03-27

這項研究評估了ChatGPT-4在急診室常見骨科情境中的表現，並與四位專科醫生進行比較。研究涵蓋20個問題，涉及診斷、管理及病人諮詢等方面。結果顯示，AI在回應的完整性、幫助性和質量上均優於人類醫生，且準確性無顯著差異。特別是在遠端橈骨骨折和外側踝骨骨折的回應上，AI表現尤為出色。整體而言，AI在急診骨科諮詢中展現出高質量建議的潛力，未來可望增強臨床決策。 PubMed DOI

Performance of Artificial Intelligence in Addressing Questions Regarding Management of Osteochondritis Dissecans.
人工智慧在解決有關骨軟骨壞死症管理問題上的表現。 Sports Health 2025-04-02

這項研究評估了大型語言模型（LLM）如ChatGPT和Gemini在提供骨關節軟骨壞死（OCD）資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應，涵蓋相關性、準確性、清晰度等六個類別。結果顯示，ChatGPT在清晰度上得分最高，而Gemini在相關性和準確性上表現優異。不過，兩者在基於證據的回應上得分較低，顯示需改進。整體而言，ChatGPT表現較佳，但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

Adequacy of ChatGPT responses to frequently asked questions about shoulder arthroplasty: is it an appropriate adjunct for patient education?
ChatGPT 回應常見肩關節置換術問題的適切性：作為病患衛教輔助工具是否合適？ JSES Int 2025-06-09

這項研究發現，ChatGPT在回答肩關節置換手術常見問題時，只有一題被評為「優秀」，其他答案雖然還可以，但都不夠詳細。ChatGPT適合用來幫助病人和醫師溝通，但在治療細節和正確性上還有待加強。建議把它當作輔助工具，不能取代專業醫療意見，使用時也要有專業監督。 PubMed DOI

Assessing the Accuracy of Artificial Intelligence Chatbots in the Diagnosis and Management of Meniscal Tears.
人工智慧聊天機器人在診斷與治療半月板撕裂準確性的評估 Cureus 2025-06-16

這項研究比較ChatGPT-4o和Gemini 2.0 Flash在回答半月板撕裂常見問題的準確性。兩者回答句數和可驗證比例差不多。只用UpToDate驗證，約58%內容正確；加上期刊文章則提升到84%。兩款AI準確度沒顯著差異，但多元驗證來源能提升正確性。總結來說，AI可輔助骨科衛教，但還是無法取代醫師專業判斷。 PubMed DOI

Exploring ChatGPT's Efficacy in Orthopaedic Arthroplasty Questions Compared to Adult Reconstruction Surgeons.
ChatGPT 在骨科關節置換問題上的效能：與成人重建外科醫師的比較 Arthroplast Today 2025-07-23

這項研究發現，ChatGPT-4在回答關節置換相關問題時，正確率只有66.9%，明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上，表現更差。雖然ChatGPT可當作學習輔助，但還無法取代專業醫師的臨床判斷，未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI

原始文章

站上相關主題文章列表