Evaluating Large Language Model's accuracy in current procedural terminology coding given operative note templates across various plastic surgery sub-specialties.

針對不同整形外科次專科手術紀錄範本，評估大型語言模型於Current Procedural Terminology (CPT) 編碼的準確性

<think> 好，我需要分析这篇关于大型语言模型在CPT编码准确性评估的研究。首先，看看研究的目的和假设。他们主要想评估GPT-4、Gemini和Copilot在整形外科各子专科的CPT编码准确性。假设应该是这些模型能有效地从手术记录中生成准确的CPT代码。接下来是方法和设计。他们选用了26份匿名的手术记录，分布在六个子专科，用标准化的提示输入到每个模型，比较输出的CPT代码与外科医生验证的代码。分类为正确、部分正确或错误。然后用Extended Fisher's Exact Tests进行分析，显著性水平设为p<0.05。这方法合理，但可能有样本量小的问题，尤其是子专科之间差异可能不够显著。然后看数据解释和结果。整体准确性上，Gemini和Copilot各19.2%，GPT-4只有7.7%。Copilot在部分正确方面表现更好，53.8%。但在乳房重建和颅面创伤方面，所有模型都失败了。误差主要来自于程序细节的错误识别和CPT代码的不当捆绑。这些结果部分支持假设，但也显示模型在复杂或少见程序上表现不佳。关于局限性和偏见，样本量小可能限制了结果的普适性，不同子专科的案例数量可能不均衡，导致分析偏差。此外，模型可能对特定提示的依赖性高，缺乏足够的上下文理解，影响准确性。临床和未来研究的意义，LLMs有潜力减轻行政负担，但目前还不够可靠，需要人工监督和模型优化。未来研究可以增加样本量，改进提示策略，提升模型的上下文理解能力。其他观点方面，可能需要引入专家系统或规则引擎，结合LLMs进行混合编码，提升准确性。此外，模型在不同子专科的表现差异可能与训练数据的分布有关，未来可以针对性优化。总结，这项研究展示了LLMs在CPT编码中的潜力，但也指出了其局限性和需要改进的地方。未来研究应在样本量、模型优化和混合方法上下功夫，以提升准确性和可靠性。 </think> ### 1. 研究目的與假設該研究主要探討了大型語言模型（LLMs）在整形外科各子專科中，根據手術紀錄模板進行CPT編碼的準確性。研究的目的是評估三種LLMs（GPT-4、Gemini和Copilot）生成準確CPT編碼的能力。研究假設這些模型能夠根據完整的手術紀錄模板生成準確的CPT編碼，但其準確性尚未得到充分驗證。 ### 2. 方法與設計研究方法是選取26份匿名的手術紀錄模板，分屬六個整形外科子專科，使用標準化的提示輸入到每個模型中，請求適當的CPT編碼。模型輸出的結果與外科醫生核實的編碼進行比較，分為正確、部分正確或錯誤三類。然後使用擴展的費舍爾精確測試（Extended Fisher's Exact Tests）進行分析，顯著性水平設為p<0.05。 **優點**：研究方法系統地評估了三種LLMs在不同子專科中的表現，使用標準化的提示和外科醫生核實的編碼作為基準，結果具有一定的客觀性。 **潛在缺陷**：樣本量（26份手術紀錄）可能不足以覆蓋所有子專科的多樣性，尤其是在子專科之間的差異可能不夠顯著。另外，研究僅使用了一種標準化的提示，可能未能考慮到不同的提示策略對模型性能的影響。 ### 3. 數據解釋與結果研究結果顯示，Gemini和Copilot在整體編碼準確性上表現最佳，各佔19.2%，而GPT-4的準確性最低，僅為7.7%。Copilot在部分正確輸出的比例較高（53.8%），但在乳房重建和顱面創傷程序中，所有模型都未能正確編碼。常見的錯誤包括程序細節的錯誤識別和CPT編碼的不當綁定。這些結果部分支持研究假設，即LLMs在某些子專科中能夠生成準確的CPT編碼，但也挑戰了假設，因為在某些複雜或少見的程序中，模型的表現不佳。 ### 4. 局限性與偏見研究可能存在以下局限性和偏見： - **樣本量小**：26份手術紀錄可能不足以覆蓋所有子專科的多樣性，尤其是在子專科之間的差異可能不夠顯著。 - **子專科分布不均**：某些子專科可能有更多的手術紀錄，而其他子專科則較少，這可能影響模型在不同子專科中的表現。 - **提示依賴性**：研究僅使用了一種標準化的提示，可能未能考慮到不同的提示策略對模型性能的影響。 - **缺乏上下文理解**：模型在處理複雜或少見程序時缺乏足夠的上下文理解，導致錯誤識別和不當綁定。 ### 5. 臨床及未來研究意涵該研究對臨床應用和未來研究具有以下啟示： - **臨床應用**：LLMs在CPT編碼中展示了潛力，尤其是在某些子專科中，但目前仍不夠可靠，需要人工監督。 - **未來研究**：未來研究應考慮增加樣本量，改進提示策略，並針對模型的上下文理解能力進行優化。此外，可以探討結合專家系統或規則引擎以提高編碼準確性。 ### 6. 其他觀點其他可能的解釋或觀點包括： - **模型訓練數據**：模型的表現可能受訓練數據的影響，某些子專科的訓練數據可能不足，導致模型在這些領域中的表現不佳。 - **混合方法**：結合LLMs與專家系統或規則引擎可能提高編碼的準確性和可靠性。 - **人工監督**：雖然LLMs展示了潛力，但人工監督仍然是必要的，尤其是在複雜或少見的程序中。總結來說，該研究展示了LLMs在CPT編碼中的潛力，但也指出了其局限性和需要改進的地方。未來研究應在樣本量、模型優化和混合方法上下功夫，以提升準確性和可靠性。