Evaluating Large Language Model's accuracy in current procedural terminology coding given operative note templates across various plastic surgery sub-specialties.

針對不同整形外科次專科手術紀錄範本,評估大型語言模型於Current Procedural Terminology (CPT) 編碼的準確性

<think> 好,我需要分析这篇关于大型语言模型在CPT编码准确性评估的研究。首先,看看研究的目的和假设。他们主要想评估GPT-4、Gemini和Copilot在整形外科各子专科的CPT编码准确性。假设应该是这些模型能有效地从手术记录中生成准确的CPT代码。 接下来是方法和设计。他们选用了26份匿名的手术记录,分布在六个子专科,用标准化的提示输入到每个模型,比较输出的CPT代码与外科医生验证的代码。分类为正确、部分正确或错误。然后用Extended Fisher's Exact Tests进行分析,显著性水平设为p<0.05。这方法合理,但可能有样本量小的问题,尤其是子专科之间差异可能不够显著。 然后看数据解释和结果。整体准确性上,Gemini和Copilot各19.2%,GPT-4只有7.7%。Copilot在部分正确方面表现更好,53.8%。但在乳房重建和颅面创伤方面,所有模型都失败了。误差主要来自于程序细节的错误识别和CPT代码的不当捆绑。这些结果部分支持假设,但也显示模型在复杂或少见程序上表现不佳。 关于局限性和偏见,样本量小可能限制了结果的普适性,不同子专科的案例数量可能不均衡,导致分析偏差。此外,模型可能对特定提示的依赖性高,缺乏足够的上下文理解,影响准确性。 临床和未来研究的意义,LLMs有潜力减轻行政负担,但目前还不够可靠,需要人工监督和模型优化。未来研究可以增加样本量,改进提示策略,提升模型的上下文理解能力。 其他观点方面,可能需要引入专家系统或规则引擎,结合LLMs进行混合编码,提升准确性。此外,模型在不同子专科的表现差异可能与训练数据的分布有关,未来可以针对性优化。 总结,这项研究展示了LLMs在CPT编码中的潜力,但也指出了其局限性和需要改进的地方。未来研究应在样本量、模型优化和混合方法上下功夫,以提升准确性和可靠性。 </think> ### 1. 研究目的與假設 該研究主要探討了大型語言模型(LLMs)在整形外科各子專科中,根據手術紀錄模板進行CPT編碼的準確性。研究的目的是評估三種LLMs(GPT-4、Gemini和Copilot)生成準確CPT編碼的能力。研究假設這些模型能夠根據完整的手術紀錄模板生成準確的CPT編碼,但其準確性尚未得到充分驗證。 ### 2. 方法與設計 研究方法是選取26份匿名的手術紀錄模板,分屬六個整形外科子專科,使用標準化的提示輸入到每個模型中,請求適當的CPT編碼。模型輸出的結果與外科醫生核實的編碼進行比較,分為正確、部分正確或錯誤三類。然後使用擴展的費舍爾精確測試(Extended Fisher's Exact Tests)進行分析,顯著性水平設為p<0.05。 **優點**:研究方法系統地評估了三種LLMs在不同子專科中的表現,使用標準化的提示和外科醫生核實的編碼作為基準,結果具有一定的客觀性。 **潛在缺陷**:樣本量(26份手術紀錄)可能不足以覆蓋所有子專科的多樣性,尤其是在子專科之間的差異可能不夠顯著。另外,研究僅使用了一種標準化的提示,可能未能考慮到不同的提示策略對模型性能的影響。 ### 3. 數據解釋與結果 研究結果顯示,Gemini和Copilot在整體編碼準確性上表現最佳,各佔19.2%,而GPT-4的準確性最低,僅為7.7%。Copilot在部分正確輸出的比例較高(53.8%),但在乳房重建和顱面創傷程序中,所有模型都未能正確編碼。常見的錯誤包括程序細節的錯誤識別和CPT編碼的不當綁定。 這些結果部分支持研究假設,即LLMs在某些子專科中能夠生成準確的CPT編碼,但也挑戰了假設,因為在某些複雜或少見的程序中,模型的表現不佳。 ### 4. 局限性與偏見 研究可能存在以下局限性和偏見: - **樣本量小**:26份手術紀錄可能不足以覆蓋所有子專科的多樣性,尤其是在子專科之間的差異可能不夠顯著。 - **子專科分布不均**:某些子專科可能有更多的手術紀錄,而其他子專科則較少,這可能影響模型在不同子專科中的表現。 - **提示依賴性**:研究僅使用了一種標準化的提示,可能未能考慮到不同的提示策略對模型性能的影響。 - **缺乏上下文理解**:模型在處理複雜或少見程序時缺乏足夠的上下文理解,導致錯誤識別和不當綁定。 ### 5. 臨床及未來研究意涵 該研究對臨床應用和未來研究具有以下啟示: - **臨床應用**:LLMs在CPT編碼中展示了潛力,尤其是在某些子專科中,但目前仍不夠可靠,需要人工監督。 - **未來研究**:未來研究應考慮增加樣本量,改進提示策略,並針對模型的上下文理解能力進行優化。此外,可以探討結合專家系統或規則引擎以提高編碼準確性。 ### 6. 其他觀點 其他可能的解釋或觀點包括: - **模型訓練數據**:模型的表現可能受訓練數據的影響,某些子專科的訓練數據可能不足,導致模型在這些領域中的表現不佳。 - **混合方法**:結合LLMs與專家系統或規則引擎可能提高編碼的準確性和可靠性。 - **人工監督**:雖然LLMs展示了潛力,但人工監督仍然是必要的,尤其是在複雜或少見的程序中。 總結來說,該研究展示了LLMs在CPT編碼中的潛力,但也指出了其局限性和需要改進的地方。未來研究應在樣本量、模型優化和混合方法上下功夫,以提升準確性和可靠性。