Using a large language model for post-deployment monitoring of FDA approved AI: pulmonary embolism detection use case.

使用大型語言模型於FDA核准AI之部署後監測：以肺栓塞偵測為例

<think> 嗯，我需要分析這篇關於使用大型語言模型（LLM）來監測已部署的AI系統在臨床應用中的表現，特別是用於檢測肺栓塞（PE）的案例。首先，我得理解研究的目的和假設。研究目的是開發一個監測框架，使用LLM來分類放射報告，並結合人工監督，來檢測AI系統（CVPED）是否出現性能下降。假設是這樣的框架可以有效追踪AI的表現，及時發出警報，並提供臨床價值。接下來，看看方法是否合理。研究採用回顧性分析，使用了大量CTPA掃描，並結合LLM和人工審查來確定基準真實值。這樣的方法優點是數據量大，能夠檢測較小的變化，但缺點是回顧性設計可能忽略實時應用的動態因素。此外，LLM本身可能有錯誤，這可能影響結果。數據解釋方面，研究發現當LLM的專異性下降2.5%時，會導致差異增加，這可能在22天內被檢測到。這支持了框架的有效性，但也有可能忽略其他因素，如報告質量或醫生的行為變化。在局限性方面，研究主要在單一醫院進行，結果可能不具有普遍性。另外，LLM的訓練數據可能存在偏見，影響分類結果。未來研究應考慮多中心數據和不同AI模型的比較。臨床意義方面，這個框架能及時發現AI性能下降，避免錯誤診斷，提升患者安全。未來研究可以探討如何最佳化監測參數，或者整合其他AI模型。其他可能的解釋包括LLM本身的錯誤率，或醫生在審查過程中的主觀因素。這些都可能影響結果，需要進一步研究。總結來說，這篇研究展示了一種創新的監測方法，雖然有其局限，但提供了有價值的臨床應用啟示。 </think> ### 1. 研究目的與假設這項研究主要探討了如何使用大型語言模型（LLMs）來監測已部署的AI系統（特別是用於檢測肺栓塞的商業AI工具CVPED）在臨床環境中的性能。研究假設的是，結合LLMs和人工監督的監測框架可以有效追踪AI模型的性能，並在檢測到性能下降時發出警報，從而提供持續的臨床價值。 ### 2. 方法與設計研究方法包括： - **回顧性分析**：分析了11,999例CTPA掳影，時間範圍為2023年4月30日至2024年6月17日。 - **基準真實值**：結合LLM分類和CVPED輸出，並由人工審查不一致的結果。 - **每日監測框架**：追踪CVPED與LLM之間的分歧，當分歧率超過95%信賴区間七天時，視為性能下降。 - **模擬性能下降**：系統性改變CVPED或LLM的敏感度和特異性，以檢測數據移位。 - **人工在迴圈框架**：用於持續評估和檢測潛在的增量診斷。 **優點**： - 使用大規模數據進行分析，增加結果的可靠性。 - 模擬性能下降，驗證框架的檢測能力。 **潛在缺陷**： - 回顧性設計可能無法完全反映實時應用的動態條件。 - LLM本身的分類可能存在錯誤，影響基準真實值的準確性。 ### 3. 數據解釋與結果研究結果顯示： - 在11,999例CTPA中，1,285例（10.7%）有PE。 - 373例（3.1%）在CVPED和LLM之間有分歧。 - 在111例CVPED陽性但LLM陰性的案例中，29例會觸發警報，最終框架確定了4例真陽性PE案例。 - LLM特異性的小幅下降（2.5%）會導致分歧率增加1.7倍，需22天檢測到。 - 最佳回顧性評估期為兩個月。 **結果支持假設**： - 框架能夠檢測到性能下降，尤其是當LLM特異性下降時，分歧率顯著增加。 - 人工在迴圈框架提供了增量診斷價值。 **潛在偏差**： - 可能忽略其他因素，如放射報告的質量或醫生的報告習慣。 ### 4. 局限性與偏見 **局限性**： - **單一醫院數據**：結果可能不適用於其他醫院或不同的臨床環境。 - **靜態數據**：回顧性分析可能無法反映實時應用的動態條件。 - **LLM的潛在偏差**：LLM的訓練數據可能存在偏見，影響分類結果。 **未考慮到的變量**： - 醫生的報告風格和經驗可能影響LLM的分類。 - 其他臨床變量，如患者的基礎疾病或用藥，可能影響PE的檢測。 ### 5. 臨床及未來研究意涵 **臨床意義**： - 提供了一種持續監測AI性能的方法，確保AI在臨床應用中的可靠性和安全性。 - 人工在迴圈框架可以提供增量診斷價值，改善患者結果。 **未來研究建議**： - 應驗證框架在多中心和不同AI模型上的適用性。 - 探討如何最佳化監測參數，如信賴区間和回顧期。 - 研究LLM的潛在偏差及其對分類的影響。 - 探討整合其他AI模型或方法以改善檢測精度。 ### 6. 其他觀點 **其他可能的解釋**： - LLM的分類錯誤可能來自於訓練數據中的偏見或放射報告的不完整性。 - 醫生的行為在檢測性能下降中可能發揮作用，例如對CVPED的依賴度增加可能掩蓋其性能下降。 **推理過程**： - LLM的分類結果可能受限於其訓練數據，若訓練數據中存在偏見，則分類結果可能不準確。 - 醫生的報告習慣可能隨時間改變，影響LLM的分類結果。 - 未來研究需要考慮這些因素，以改善框架的準確性和可靠性。 ### 總結這項研究展示了一種創新的監測框架，結合LLMs和人工監督來檢測AI模型的性能下降。雖然該框架展示了潛在的臨床價值，但仍需克服數據偏見和單一中心的局限性。未來研究應考慮多中心數據、不同AI模型的比較，以及LLMs的潛在偏差，以提升框架的普適性和可靠性。