Do ChatGPT and Gemini Provide Appropriate Recommendations for Pediatric Orthopaedic Conditions?
ChatGPT 和 Gemini 是否對小兒骨科疾病提供適當的建議？ J Pediatr Orthop 2024-08-22

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，在提供小兒骨科疾病建議的可靠性，並參考了美國骨科醫學會（AAOS）的指導方針。結果顯示，ChatGPT和Gemini的符合率分別為67%和69%，差異不大。值得注意的是，ChatGPT沒有引用任何研究，而Gemini則參考了16項研究，但大多數存在錯誤或不一致。總體來看，這些模型雖然在某程度上符合指導方針，但仍有許多中立或不正確的陳述，顯示醫療AI模型需改進與提高透明度。 PubMed DOI

Currently Available Large Language Models Do Not Provide Musculoskeletal Treatment Recommendations That are Concordant With Evidence-Based Clinical Practice Guidelines.
目前可用的大型語言模型未能提供與循證臨床實踐指導一致的肌肉骨骼治療建議。 Arthroscopy 2024-08-22

這項研究評估了幾個商業可用的大型語言模型（LLMs）在提供治療建議時，與美國骨科醫學會（AAOS）針對肩袖撕裂和前交叉韌帶（ACL）損傷的臨床指導方針（CPGs）的符合度。分析了48項CPGs，結果顯示70.3%的回應與指導方針一致，ChatGPT-4的符合率最高（79.2%），而Mistral-7B最低（58.3%）。研究指出，雖然LLMs能提供一致建議，但缺乏透明的資料來源，限制了其作為臨床支持工具的可靠性，未來應擴大評估範圍以減少偏見。 PubMed DOI

"Dr. AI Will See You Now": How Do ChatGPT-4 Treatment Recommendations Align With Orthopaedic Clinical Practice Guidelines?
「AI 醫生現在會見您」：ChatGPT-4 的治療建議如何與骨科臨床實踐指導方針對齊？ Clin Orthop Relat Res 2024-09-09

這項研究評估了ChatGPT-4在生成骨科疾病治療建議的有效性，並與美國骨科醫學會的指導方針及醫師計畫進行比較。主要發現包括： 1. ChatGPT-4的建議與AAOS指導方針一致性達90%。 2. 與主治醫師的建議一致性為78%。 3. 在骨折及關節炎案例中表現優異，但腕管綜合症表現不佳。 4. 不一致主要出現在腕管綜合症及其他特定損傷。 5. 雖然ChatGPT-4能提供準確建議，但在考量患者特定因素時仍需醫師的批判性評估。總之，ChatGPT-4在骨科治療中具輔助潛力，但需專業監督。 PubMed DOI

Artificial Intelligence Large Language Models Address Anterior Cruciate Ligament Reconstruction: Superior Clarity and Completeness by Gemini Compared to ChatGPT-4 in Response to American Academy of Orthopedic Surgeons Clinical Practice Guidelines.
人工智慧大型語言模型在前交叉韌帶重建中的應用：Gemini 相較於 ChatGPT-4 在回應美國骨科醫學會臨床實踐指導方針時展現出更優越的清晰度和完整性。 Arthroscopy 2024-09-23

這項研究評估了ChatGPT-4和Gemini在根據2022年美國骨科醫學會的前交叉韌帶重建指導方針生成回應的表現。七位專科醫生使用問卷評估這些回應，結果顯示兩者表現都不錯，平均分數超過4。Gemini在整體清晰度及康復與預防的完整性上優於ChatGPT-4，顯示出顯著的優勢。這項研究強調了大型語言模型在醫療領域的潛力，對醫療專業人員和病人皆有價值。 PubMed DOI

Discrepancies in ChatGPT's Hip Fracture Recommendations in Older Adults for 2021 AAOS Evidence-Based Guidelines.
2021 AAOS 依據證據的指引中 ChatGPT 對於老年人髖部骨折建議的差異。 J Clin Med 2024-10-16

本研究評估了ChatGPT在老年人髖部骨折管理方面的表現，基於美國骨科醫學會的指導方針。使用19項陳述進行測試，結果顯示其準確率分別為0.684、0.579和0.632，精確率則為0.740、0.737和0.718，顯示中等一致性。雖然ChatGPT能提供相關指導，但準確性仍有待加強，且幻覺現象是主要限制。未來應探討如何有效利用ChatGPT作為病人教育工具。 PubMed DOI

Pediatric Supracondylar Humerus and Diaphyseal Femur Fractures: A Comparative Analysis of Chat Generative Pretrained Transformer and Google Gemini Recommendations Versus American Academy of Orthopaedic Surgeons Clinical Practice Guidelines.
小兒肱骨上髁骨折與股骨幹骨折：Chat Generative Pretrained Transformer 和 Google Gemini 建議與美國骨科醫學會臨床實踐指導方針的比較分析。 J Pediatr Orthop 2025-01-14

這項研究評估了三款AI聊天機器人（ChatGPT-4.0、ChatGPT-3.5和Google Gemini）在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示，ChatGPT-4.0和Google Gemini的準確率較高，分別為11項和9項建議。雖然所有機器人都提供了補充資訊，但修改需求各異，且可讀性方面Google Gemini表現較佳。整體而言，這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

Evaluating Artificial Intelligence in Spinal Cord Injury Management: A Comparative Analysis of ChatGPT-4o and Google Gemini Against American College of Surgeons Best Practices Guidelines for Spine Injury.
評估人工智慧在脊髓損傷管理中的應用：ChatGPT-4o 和 Google Gemini 與美國外科醫師學會脊椎損傷最佳實踐指導方針的比較分析。 Global Spine J 2025-02-17

這項研究評估了兩個人工智慧模型，ChatGPT-4o 和 Gemini Advanced，與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題，結果顯示ChatGPT-4o的一致率為73.07%，正確回答38題；而Gemini Advanced為69.23%，正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳，但ChatGPT在治療性問題上較強。整體而言，這些模型在脊椎損傷管理上顯示潛力，但仍有改進空間。 PubMed DOI

Evaluating if ChatGPT Can Answer Common Patient Questions Compared With OrthoInfo Regarding Rotator Cuff Tears.
評估 ChatGPT 是否能夠回答有關肩袖撕裂的常見病人問題，並與 OrthoInfo 進行比較。 J Am Acad Orthop Surg Glob Res Rev 2025-03-13

這項研究評估了ChatGPT對旋轉袖撕裂病人常見問題的回答能力，並比較了標準與六年級閱讀水平的回應。結果顯示，標準回應在準確性（4.7）和適當性（4.5）上優於六年級回應（3.6和3.7），且差異顯著（P < 0.001）。不過，標準回應的準確性和適當性仍低於OrthoInfo（準確性4.7對5.0，適當性4.5對5.0）。雖然標準回應較佳，但可讀性卻不如OrthoInfo。結論建議，ChatGPT不應作為病人資訊的唯一來源，但可作為骨科醫生資訊的補充。 PubMed DOI

Performance of Artificial Intelligence in Addressing Questions Regarding Management of Osteochondritis Dissecans.
人工智慧在解決有關骨軟骨壞死症管理問題上的表現。 Sports Health 2025-04-02

這項研究評估了大型語言模型（LLM）如ChatGPT和Gemini在提供骨關節軟骨壞死（OCD）資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應，涵蓋相關性、準確性、清晰度等六個類別。結果顯示，ChatGPT在清晰度上得分最高，而Gemini在相關性和準確性上表現優異。不過，兩者在基於證據的回應上得分較低，顯示需改進。整體而言，ChatGPT表現較佳，但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

Can popular AI large language models provide reliable answers to frequently asked questions about rotator cuff tears?
流行的 AI 大型語言模型能否提供有關旋轉袖撕裂的常見問題的可靠答案？ JSES Int 2025-04-04

旋轉袖肌腱撕裂是常見的肩部傷害，會影響功能和生活品質。隨著人們越來越依賴人工智慧大型語言模型（AI LLMs）獲取健康資訊，評估其資訊質量和可讀性變得重要。一項研究針對此傷害生成50個問題，分析了多個AI模型及Google搜尋的回應。結果顯示，雖然有改進潛力，但目前的AI LLM在醫療資訊的質量和可讀性上仍不足，未來需持續評估並提升其表現，以更好地支持病人教育。 PubMed DOI

原始文章

站上相關主題文章列表