Can Ordinary AI-Powered Tools Replace a Clinician-Led Fracture Clinic Appointment?
普通的人工智慧工具能否取代臨床醫師主導的骨折診所預約？ Cureus 2025-01-10

**引言** 人工智慧（AI）在醫療領域的應用日益普遍。本研究比較臨床醫師制定的骨折管理計畫與ChatGPT和Google Gemini生成的計畫。 **方法論** 本研究回顧70例孤立性骨折案例，排除複雜骨折和不明診斷。將臨床細節輸入AI，並比較其生成的計畫與實際文件計畫，重點在治療建議和後續策略。 **結果** Google Gemini僅有19%案例符合實際計畫，主要因過度概括和模糊性。ChatGPT則有34%符合，過度概括為主要差異。AI計畫與臨床計畫之間的差異具統計意義（p < 0.001）。 **結論** 這兩個AI工具在臨床管理計畫中顯示顯著不一致。雖然ChatGPT較接近專業知識，但兩者皆缺乏必要的臨床精確性，無法取代臨床醫師的角色。 PubMed DOI

Evaluating the Quality and Readability of Information Provided by Generative Artificial Intelligence Chatbots on Clavicle Fracture Treatment Options.
評估生成式人工智慧聊天機器人提供的鎖骨骨折治療選項資訊的質量和可讀性。 Cureus 2025-02-10

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果，包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異，但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看，這些AI模型在病患教育中表現良好，特別是Microsoft Copilot和Perplexity，適合用於提供鎖骨骨折相關資訊。 PubMed DOI

ChatGPT Achieves Only Fair Agreement with ACFAS Expert Panelist Clinical Consensus Statements.
ChatGPT 與 ACFAS 專家小組臨床共識聲明僅達到公平一致性。 Foot Ankle Spec 2025-02-22

這項研究探討了AI語言模型ChatGPT-o1與美國足踝外科醫師學會（ACFAS）2015至2022年間的臨床共識聲明之間的對齊情況。研究分析了9份文件中的129條聲明，結果顯示AI與專家之間的協議程度為公平（Cohen's kappa值0.29）。在踝關節炎和跟痛症的共識度達100%，但扁平足僅25%。此外，ChatGPT的內部可靠性變異，kappa值介於0.41到0.92之間。這顯示AI與專家意見之間仍有顯著差異，需進一步研究。此研究屬於四級回顧性隊列研究。 PubMed DOI

Breaking Bones, Breaking Barriers: ChatGPT, DeepSeek, and Gemini in Hand Fracture Management.
打破骨頭，打破障礙：ChatGPT、DeepSeek 和 Gemini 在手部骨折管理中的應用。 J Clin Med 2025-03-27

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性，並與經驗豐富的外科醫生進行比較。結果顯示，ChatGPT-4o的準確率最高，但精確度較低；DeepSeek-V3表現中等，偶爾漏掉正確方案；而Gemini 1.5則表現不佳。結論指出，雖然AI能增強臨床流程，但在複雜案例中仍無法取代人類專業，且需解決倫理問題才能廣泛應用。 PubMed DOI

Artificial intelligence versus orthopedic surgeons as an orthopedic consultant in the emergency department.
人工智慧與骨科醫生在急診部門作為骨科顧問的比較。 Injury 2025-03-27

這項研究評估了ChatGPT-4在急診室常見骨科情境中的表現，並與四位專科醫生進行比較。研究涵蓋20個問題，涉及診斷、管理及病人諮詢等方面。結果顯示，AI在回應的完整性、幫助性和質量上均優於人類醫生，且準確性無顯著差異。特別是在遠端橈骨骨折和外側踝骨骨折的回應上，AI表現尤為出色。整體而言，AI在急診骨科諮詢中展現出高質量建議的潛力，未來可望增強臨床決策。 PubMed DOI

The Challenges of Using ChatGPT for Clinical Decision Support in Orthopaedic Surgery: A Pilot Study.
使用 ChatGPT 進行骨科手術臨床決策支持的挑戰：一項初步研究。 J Am Acad Orthop Surg 2025-03-28

這項研究探討了人工智慧，特別是ChatGPT-4，在分析複雜臨床數據及生成合理評估和計畫的能力，特別針對骨科手術。研究聚焦於急診部門的十種常見骨折，利用患者的諮詢紀錄來提供AI所需的病史和檢查結果。結果顯示，ChatGPT-4能產出安全且合理的計畫，與多專科會議的臨床結果相符。雖然對大型語言模型的評估仍在發展中，但這項研究顯示AI在臨床決策中的潛力，未來可考慮以實際臨床結果作為基準。 PubMed DOI

ChatGPT-4 Effectively Responds to Common Patient Questions on Total Ankle Arthroplasty: A Surgeon-Based Assessment of AI in Patient Education.
ChatGPT-4 有效回應關於全踝關節置換術的常見病人問題：基於外科醫生的人工智慧在病人教育中的評估。 Foot Ankle Orthop 2025-03-31

這項研究評估了ChatGPT-4在回答全踝關節置換術（TAA）相關問題的表現。研究人員提出十二個常見問題，並請四位專科外科醫生評分其回答的準確性和清晰度。平均得分為1.8（滿分4分），顯示在事實性問題上表現尚可，但對於術後方案等細緻問題評分較低。外科醫生的評分差異顯著，顯示出不同的解讀和期望。這強調了針對特定臨床情境設計AI工具的必要性，以提升病人教育和資訊的準確性。 PubMed DOI

Performance of Artificial Intelligence in Addressing Questions Regarding Management of Osteochondritis Dissecans.
人工智慧在解決有關骨軟骨壞死症管理問題上的表現。 Sports Health 2025-04-02

這項研究評估了大型語言模型（LLM）如ChatGPT和Gemini在提供骨關節軟骨壞死（OCD）資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應，涵蓋相關性、準確性、清晰度等六個類別。結果顯示，ChatGPT在清晰度上得分最高，而Gemini在相關性和準確性上表現優異。不過，兩者在基於證據的回應上得分較低，顯示需改進。整體而言，ChatGPT表現較佳，但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

Comparative analysis of clinical relevance and accuracy in AI-assisted patient consultations on ankle and clavicle fracture surgeries.
AI輔助病患諮詢於踝部與鎖骨骨折手術之臨床相關性與準確性比較分析 Injury 2025-05-09

這項研究發現，ChatGPT 在回答踝關節和鎖骨骨折手術常見問題時，比 Google 更準確、內容更貼近臨床，還引用較多學術資料。結果顯示，像 ChatGPT 這類 AI 有機會提升病人獲取線上醫療資訊的品質與可靠性，未來在臨床照護上很有發展潛力。 PubMed DOI

Exploring ChatGPT's Efficacy in Orthopaedic Arthroplasty Questions Compared to Adult Reconstruction Surgeons.
ChatGPT 在骨科關節置換問題上的效能：與成人重建外科醫師的比較 Arthroplast Today 2025-07-23

這項研究發現，ChatGPT-4在回答關節置換相關問題時，正確率只有66.9%，明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上，表現更差。雖然ChatGPT可當作學習輔助，但還無法取代專業醫師的臨床判斷，未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI

原始文章

站上相關主題文章列表