Billing and Coding in Foot and Ankle Surgery: Can We Trust Artificial Intelligence?

足踝手術中的醫療費用申報與編碼:我們能信任人工智慧嗎?

<think> 嗯,我需要分析這篇關於足跟踝骨科手術中AI在計費與編碼的研究。首先,研究目的是評估AI在準確識別CPT碼上的能力。假設可能是AI能準確生成這些碼,但結果顯示只有44%的準確率,顯然假設不成立。 研究方法選用了三個AI平台,跟專家比較,優點是有對照組,但樣本量只有13個程序,可能不夠全面。數據上,Bing表現最好,但整體還是有很多錯誤,可能因為CPT碼太多,AI理解上下文有限。 局限性包括程序數量少,缺乏多樣性,還有AI缺乏專業知識。未來研究應該擴大樣本,考慮更多變數,或者結合醫生使用。 臨床上,現在還不能完全依賴AI,建議醫院用AI輔助,但人工核查必要。未來AI可能會更好,如果訓練資料更齟齴和多樣化。 其他可能的解釋是不同AI平台的演算法差異,或者CPT碼本身的複雜性影響了結果。總之,AI在這個領域還需要改進,不能完全信賴。 </think> ### 1. 研究目的與假設 該研究主要探討了人工智慧(AI)在足跟踝骨科手術中生成Current Procedural Terminology (CPT) 碼的準確性。研究的假設是,AI 可能能夠準確識別和生成CPT 碼,但研究結果顯示,這一假設在很大程度上並未得到支持。 ### 2. 方法與設計 研究方法包括使用三個公開可用的AI搜尋引擎(ChatGPT、Bing 和Google Gemini)來生成CPT 碼,並將其與三位足跟踝專科醫生的編碼結果進行比較。研究的優點在於它提供了一種客觀的比較方法,通過Cohen kappa 系數來衡量AI 平台與參考標準之間的協議程度。然而,研究的樣本量(13個程序)可能過小,未能完全反映足跟踝手術的複雜性。此外,研究僅限於三個AI 平台,未能涵蓋其他可能的AI 工具。 ### 3. 數據解釋與結果 研究結果顯示,AI搜尋引擎正確生成CPT 碼的比率為44%,其中Bing 表現最佳,正確率為62%。ChatGPT 的正確率僅為23%,表現最差。Cohen kappa 系數顯示,AI 平台與參考標準之間的協議程度總體上屬於「公平協議」,而Bing 和Google Gemini 的協議程度分別為「中等」和「公平」,ChatGPT 的協議程度為「差」。這些結果挑戰了AI 在足跟踝手術中生成CPT 碼的可靠性。 ### 4. 局限性與偏見 研究的局限性包括樣本量小、程序的多樣性有限以及缺乏對其他AI 工具的考慮。此外,研究可能未能考慮到AI 演算法的差異或CPT 碼的複雜性對結果的影響。 ### 5. 臨床及未來研究意涵 研究結果表明,目前AI 在足跟踝手術中生成CPT 碼的準確性尚不夠高,臨床應用中仍需謹慎使用。未來研究建議增加樣本量、考慮更多的AI 工具以及探討AI 演算法的改進方向。 ### 6. 其他觀點 其他可能的解釋包括AI 工具在不同程序上的表現差異可能與其演算法和訓練資料有關。此外,CPT 碼的複雜性和多樣性可能超出了AI 工具的理解和生成能力。