Evaluation High-Quality of Information from ChatGPT (Artificial Intelligence-Large Language Model) Artificial Intelligence on Shoulder Stabilization Surgery.
ChatGPT（人工智慧大型語言模型）在肩膀穩定手術資訊的高品質評估。 Arthroscopy 2024-02-26

研究使用ChatGPT分析肩膀穩定手術資訊，評估其準確性、品質和易讀性。人工智慧表現良好，但引用來源較不足。建議尋求醫師意見。研究強調病患在網路上尋找資訊時需謹慎。 PubMed DOI

A comparative analysis of AI-based chatbots: Assessing data quality in orthognathic surgery related patient information.
AI-based chatbots之比較分析：評估正顎外科相關病患資訊的數據品質。 J Stomatol Oral Maxillofac Surg 2024-01-07

研究比較了不同AI聊天機器人在正顎手術中的表現，結果顯示回答品質高、可靠性佳，但易讀性需高學歷。ChatGPT-4有創意，OpenEvidence則回答相似。儘管聊天機器人提供高品質答案，仍建議諮詢專業醫師。 PubMed DOI

Assessing the Efficacy of an AI-Powered Chatbot (ChatGPT) in Providing Information on Orthopedic Surgeries: A Comparative Study With Expert Opinion.
評估 AI 驅動的聊天機器人 (ChatGPT) 在提供骨科手術資訊方面的效能：與專家意見的比較研究。 Cureus 2024-07-29

這項研究探討了開放存取的人工智慧軟體ChatGPT在回答與骨科手術相關的病人問題的準確性。研究聚焦於六種手術，包括前交叉韌帶重建和全髖關節置換等。研究者向ChatGPT提出標準問題，並將其回答與專家意見比較，結果顯示平均得分為2.43，顯示與專家意見有一定一致性。研究指出，ChatGPT可能成為病人了解手術選擇的有用工具，但仍需進一步研究以驗證結果並探討其在外科實踐中的應用。 PubMed DOI

Utility of Generative Artificial Intelligence for Patient Care Counseling for Mandibular Fractures.
生成式人工智慧在下顎骨骨折患者護理諮詢中的應用價值。 J Craniofac Surg 2024-11-04

這項研究評估了ChatGPT 3.5和4.0版本在提供下頜骨骨折資訊的可讀性和準確性。隨著患者依賴生成式人工智慧查詢醫療資訊，評估其質量變得重要。研究發現兩個版本在可讀性和準確性上無顯著差異，但可讀性分數高於建議標準，顯示內容對一般患者來說可能過於複雜。此外，資訊準確性較低，許多回應含有不準確或缺乏必要資訊。總之，這項研究強調了生成式人工智慧在醫療資訊提供上的局限性，提醒患者和醫師需謹慎使用。 PubMed DOI

Pediatric Supracondylar Humerus and Diaphyseal Femur Fractures: A Comparative Analysis of Chat Generative Pretrained Transformer and Google Gemini Recommendations Versus American Academy of Orthopaedic Surgeons Clinical Practice Guidelines.
小兒肱骨上髁骨折與股骨幹骨折：Chat Generative Pretrained Transformer 和 Google Gemini 建議與美國骨科醫學會臨床實踐指導方針的比較分析。 J Pediatr Orthop 2025-01-14

這項研究評估了三款AI聊天機器人（ChatGPT-4.0、ChatGPT-3.5和Google Gemini）在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示，ChatGPT-4.0和Google Gemini的準確率較高，分別為11項和9項建議。雖然所有機器人都提供了補充資訊，但修改需求各異，且可讀性方面Google Gemini表現較佳。整體而言，這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

Assessment and Comparison of Artificial Intelligence generated Information Regarding Shoulder Arthroplasty from Multiple Interfaces.
多個介面中人工智慧生成的肩關節置換手術資訊的評估與比較。 J Shoulder Elbow Surg 2025-02-19

這項研究評估了OpenAI的ChatGPT和微軟的Copilot在解剖性全肩關節置換術（aTSA）和反向全肩關節置換術（rTSA）資訊上的質量與可讀性。研究發現，兩者的資訊質量均為「良好」，但Copilot在政策問題上表現更佳，且引用的學術來源較多，顯示其資訊更可靠且易於理解。雖然兩者都能提供有用的資訊，但仍建議將它們視為輔助資源，而非主要資訊來源，因為語言複雜性可能影響病人的理解。 PubMed DOI

Evaluating the Quality and Readability of Generative Artificial Intelligence (AI) Chatbot Responses in the Management of Achilles Tendon Rupture.
評估生成式人工智慧 (AI) 聊天機器人在跟腱斷裂管理中的回應質量和可讀性。 Cureus 2025-03-04

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量，目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示，Gemini 1.0的可讀性最佳，對一般讀者最易理解；而在回應質量上，Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言，這些聊天機器人都能提供高於平均水平的資訊，顯示出它們在病人教育上的價值。 PubMed DOI

Evaluating AI-generated patient education materials for spinal surgeries: Comparative analysis of readability and DISCERN quality across ChatGPT and deepseek models.
評估 AI 生成的脊椎手術病患教育材料：ChatGPT 與 deepseek 模型在可讀性和 DISCERN 質量上的比較分析。 Int J Med Inform 2025-03-19

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性，主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示，DeepSeek-R1 的可讀性最佳，Flesch-Kincaid 分數介於 7.2 到 9.0 之間，而 ChatGPT-o3 的可讀性最低，超過 10.4。所有模型的資訊品質均低於 60，顯示出「公平」的品質，主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性，未來應整合互動元素和病患反饋，以提升準確性和可及性。 PubMed DOI

Breaking Bones, Breaking Barriers: ChatGPT, DeepSeek, and Gemini in Hand Fracture Management.
打破骨頭，打破障礙：ChatGPT、DeepSeek 和 Gemini 在手部骨折管理中的應用。 J Clin Med 2025-03-27

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性，並與經驗豐富的外科醫生進行比較。結果顯示，ChatGPT-4o的準確率最高，但精確度較低；DeepSeek-V3表現中等，偶爾漏掉正確方案；而Gemini 1.5則表現不佳。結論指出，雖然AI能增強臨床流程，但在複雜案例中仍無法取代人類專業，且需解決倫理問題才能廣泛應用。 PubMed DOI

Performance of Artificial Intelligence in Addressing Questions Regarding Management of Osteochondritis Dissecans.
人工智慧在解決有關骨軟骨壞死症管理問題上的表現。 Sports Health 2025-04-02

這項研究評估了大型語言模型（LLM）如ChatGPT和Gemini在提供骨關節軟骨壞死（OCD）資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應，涵蓋相關性、準確性、清晰度等六個類別。結果顯示，ChatGPT在清晰度上得分最高，而Gemini在相關性和準確性上表現優異。不過，兩者在基於證據的回應上得分較低，顯示需改進。整體而言，ChatGPT表現較佳，但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

原始文章

站上相關主題文章列表