Pediatric Supracondylar Humerus and Diaphyseal Femur Fractures: A Comparative Analysis of Chat Generative Pretrained Transformer and Google Gemini Recommendations Versus American Academy of Orthopaedic Surgeons Clinical Practice Guidelines.
小兒肱骨上髁骨折與股骨幹骨折：Chat Generative Pretrained Transformer 和 Google Gemini 建議與美國骨科醫學會臨床實踐指導方針的比較分析。 J Pediatr Orthop 2025-01-14

這項研究評估了三款AI聊天機器人（ChatGPT-4.0、ChatGPT-3.5和Google Gemini）在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示，ChatGPT-4.0和Google Gemini的準確率較高，分別為11項和9項建議。雖然所有機器人都提供了補充資訊，但修改需求各異，且可讀性方面Google Gemini表現較佳。整體而言，這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

Evaluating ChatGPT, Gemini and other Large Language Models (LLMs) in orthopaedic diagnostics: A prospective clinical study.
評估 ChatGPT、Gemini 及其他大型語言模型 (LLMs) 在骨科診斷中的應用：一項前瞻性臨床研究。 Comput Struct Biotechnol J 2025-01-24

這項研究評估了大型語言模型（LLMs）在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎（OA）的診斷能力。115名患者填寫了有關症狀和病史的問卷，研究分析了多個LLMs的表現，結果顯示GPT-4o的診斷敏感性最高，達92.3%。雖然GPT-4的不同版本之間有中等一致性，但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性，並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

Evaluating the Quality and Readability of Information Provided by Generative Artificial Intelligence Chatbots on Clavicle Fracture Treatment Options.
評估生成式人工智慧聊天機器人提供的鎖骨骨折治療選項資訊的質量和可讀性。 Cureus 2025-02-10

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果，包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異，但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看，這些AI模型在病患教育中表現良好，特別是Microsoft Copilot和Perplexity，適合用於提供鎖骨骨折相關資訊。 PubMed DOI

Evaluating Artificial Intelligence in Spinal Cord Injury Management: A Comparative Analysis of ChatGPT-4o and Google Gemini Against American College of Surgeons Best Practices Guidelines for Spine Injury.
評估人工智慧在脊髓損傷管理中的應用：ChatGPT-4o 和 Google Gemini 與美國外科醫師學會脊椎損傷最佳實踐指導方針的比較分析。 Global Spine J 2025-02-17

這項研究評估了兩個人工智慧模型，ChatGPT-4o 和 Gemini Advanced，與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題，結果顯示ChatGPT-4o的一致率為73.07%，正確回答38題；而Gemini Advanced為69.23%，正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳，但ChatGPT在治療性問題上較強。整體而言，這些模型在脊椎損傷管理上顯示潛力，但仍有改進空間。 PubMed DOI

Evaluating the Quality and Readability of Generative Artificial Intelligence (AI) Chatbot Responses in the Management of Achilles Tendon Rupture.
評估生成式人工智慧 (AI) 聊天機器人在跟腱斷裂管理中的回應質量和可讀性。 Cureus 2025-03-04

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量，目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示，Gemini 1.0的可讀性最佳，對一般讀者最易理解；而在回應質量上，Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言，這些聊天機器人都能提供高於平均水平的資訊，顯示出它們在病人教育上的價值。 PubMed DOI

Are Large Language Model-Based Chatbots Effective in Providing Reliable Medical Advice for Achilles Tendinopathy? An International Multispecialist Evaluation.
以大型語言模型為基礎的聊天機器人在提供可靠的 Achilles Tendinopathy 醫療建議方面是否有效？國際多專科評估 Orthop J Sports Med 2025-05-05

三款主流聊天機器人（ChatGPT 4.0、Claude 2、Gemini）回答阿基里斯肌腱病變相關問題，ChatGPT 4.0「優秀」答案較多，但總分差不多。專家評分有落差，顯示標準化評估還不夠。雖然這些AI能提供不錯的醫療資訊，但臨床應用時還是要小心。 PubMed DOI

Performance of Artificial Intelligence in Addressing Questions Regarding the Management of Pediatric Supracondylar Humerus Fractures.
人工智慧在解答有關小兒肱骨髁上骨折處置問題的表現 J Pediatr Soc North Am 2025-05-28

這項研究比較ChatGPT和Gemini在依據2022年AAOS兒童肱骨髁上骨折指引下的表現。結果發現，兩者回答都符合指引，但Gemini在提供有根據的醫學證據上表現較佳，顯示Gemini在臨床資訊可靠度上較有潛力。不過，兩款AI各有優缺點。 PubMed DOI

ChatGPT and Google Gemini are Clinically Inadequate in Providing Recommendations on Management of Developmental Dysplasia of the Hip Compared to American Academy of Orthopaedic Surgeons Clinical Practice Guidelines.
ChatGPT 與 Google Gemini 在發育性髖關節發育不良（Developmental Dysplasia of the Hip）管理建議上，與美國骨科醫學會臨床指引相比，臨床表現不足 J Pediatr Soc North Am 2025-05-28

這項研究比較ChatGPT-4.0、ChatGPT-3.5和Google Gemini在回答DDH醫學問題時的表現。結果發現，三款AI的答案準確性都有限，常常有錯誤或遺漏重點。雖然準確度差不多，但Google Gemini的內容最容易閱讀。建議醫師要提醒病患，AI醫療資訊還有很多限制，不能完全依賴。 PubMed DOI

Assessing the Accuracy of Artificial Intelligence Chatbots in the Diagnosis and Management of Meniscal Tears.
人工智慧聊天機器人在診斷與治療半月板撕裂準確性的評估 Cureus 2025-06-16

這項研究比較ChatGPT-4o和Gemini 2.0 Flash在回答半月板撕裂常見問題的準確性。兩者回答句數和可驗證比例差不多。只用UpToDate驗證，約58%內容正確；加上期刊文章則提升到84%。兩款AI準確度沒顯著差異，但多元驗證來源能提升正確性。總結來說，AI可輔助骨科衛教，但還是無法取代醫師專業判斷。 PubMed DOI

A custom ChatGPT can accurately answer questions from an international expert osteotomy consensus statement.
一個自訂的 ChatGPT 能夠準確回答國際專家截骨術共識聲明中的問題。 Eur J Orthop Surg Traumatol 2025-06-16

這項研究測試了經過客製化訓練的ChatGPT，針對高脛骨截骨術（HTO）問題的回答能力，並以專家共識聲明為基礎。研究用10題測試AI，並由三位膝關節外科醫師評分。結果顯示，AI在正確性、相關性、清楚度和完整性方面表現都不錯，評審間一致性也高。雖然對非共識聲明的題目分數略低，但整體來說，這個AI有潛力成為外科醫師的輔助工具，也適合應用在其他醫療指引上。 PubMed DOI

原始文章

站上相關主題文章列表