Billing and Coding in Foot and Ankle Surgery: Can We Trust Artificial Intelligence?

足踝手術中的醫療費用申報與編碼：我們能信任人工智慧嗎？

<think> 嗯，我需要分析這篇關於足跟踝骨科手術中AI在計費與編碼的研究。首先，研究目的是評估AI在準確識別CPT碼上的能力。假設可能是AI能準確生成這些碼，但結果顯示只有44%的準確率，顯然假設不成立。研究方法選用了三個AI平台，跟專家比較，優點是有對照組，但樣本量只有13個程序，可能不夠全面。數據上，Bing表現最好，但整體還是有很多錯誤，可能因為CPT碼太多，AI理解上下文有限。局限性包括程序數量少，缺乏多樣性，還有AI缺乏專業知識。未來研究應該擴大樣本，考慮更多變數，或者結合醫生使用。臨床上，現在還不能完全依賴AI，建議醫院用AI輔助，但人工核查必要。未來AI可能會更好，如果訓練資料更齟齴和多樣化。其他可能的解釋是不同AI平台的演算法差異，或者CPT碼本身的複雜性影響了結果。總之，AI在這個領域還需要改進，不能完全信賴。 </think> ### 1. 研究目的與假設該研究主要探討了人工智慧（AI）在足跟踝骨科手術中生成Current Procedural Terminology (CPT) 碼的準確性。研究的假設是，AI 可能能夠準確識別和生成CPT 碼，但研究結果顯示，這一假設在很大程度上並未得到支持。 ### 2. 方法與設計研究方法包括使用三個公開可用的AI搜尋引擎（ChatGPT、Bing 和Google Gemini）來生成CPT 碼，並將其與三位足跟踝專科醫生的編碼結果進行比較。研究的優點在於它提供了一種客觀的比較方法，通過Cohen kappa 系數來衡量AI 平台與參考標準之間的協議程度。然而，研究的樣本量（13個程序）可能過小，未能完全反映足跟踝手術的複雜性。此外，研究僅限於三個AI 平台，未能涵蓋其他可能的AI 工具。 ### 3. 數據解釋與結果研究結果顯示，AI搜尋引擎正確生成CPT 碼的比率為44%，其中Bing 表現最佳，正確率為62%。ChatGPT 的正確率僅為23%，表現最差。Cohen kappa 系數顯示，AI 平台與參考標準之間的協議程度總體上屬於「公平協議」，而Bing 和Google Gemini 的協議程度分別為「中等」和「公平」，ChatGPT 的協議程度為「差」。這些結果挑戰了AI 在足跟踝手術中生成CPT 碼的可靠性。 ### 4. 局限性與偏見研究的局限性包括樣本量小、程序的多樣性有限以及缺乏對其他AI 工具的考慮。此外，研究可能未能考慮到AI 演算法的差異或CPT 碼的複雜性對結果的影響。 ### 5. 臨床及未來研究意涵研究結果表明，目前AI 在足跟踝手術中生成CPT 碼的準確性尚不夠高，臨床應用中仍需謹慎使用。未來研究建議增加樣本量、考慮更多的AI 工具以及探討AI 演算法的改進方向。 ### 6. 其他觀點其他可能的解釋包括AI 工具在不同程序上的表現差異可能與其演算法和訓練資料有關。此外，CPT 碼的複雜性和多樣性可能超出了AI 工具的理解和生成能力。