Vision-language models for automated video analysis and documentation in laparoscopic surgery: a proof-of-concept study.

腹腔鏡手術中自動化影像分析與紀錄之視覺-語言模型：概念驗證研究

<think> 好，我需要分析這篇關於視覺語言模型在腹腔鏡手術自動化分析與文件編寫的研究。首先，看看研究的目的是什麼。摘要提到，醫療人力短缺，自動化文件編寫和減輕行政負擔很重要。研究用了GPT-4o和Gemini-1.5-pro兩種模型，評估它們在15個膽囊切除和15個闌尾切除影片中的表現。接下來，研究方法是觀察性比較研究，從2024年6月到9月進行，使用CholecT45和LapApp資料集的影片，幀率是每秒一幀。任務包括物體檢測、手術類型分類、闌尾炎分級和手術報告生成。還評估了In-context learning（ICL）的效果，性能用描述性準確度來衡量。數據解釋方面，兩個模型在血管夾檢測上都達到100%準確率。GPT-4o在檢測取物袋和乾膿Pad方面表現更好，而Gemini-1.5-pro在出血檢測上更優。手術分類方面，Gemini-1.5-pro在膽囊切除上更準確，但兩者在闌尾切除上只有60%的準確率。闌尾炎分級的表現都不太好，GPT-4o 40%，Gemini-1.5-pro 26.7%。在手術報告生成上，GPT-4o的輸出更完整，Gemini-1.5-pro在正確性上更高。ICL顯著提升了工具辨識，但對器官移除步驟的辨識效果不一致。研究結果支撐了假設，證明這些模型可以應用在手術影片分析中，但在病理分級和步驟描述上有所不足，需要進一步的學習方法來提升。關於局限性，研究只使用了一個資料集，影片幀率較低，可能影響檢測效果。此外，模型缺乏專業領域知識，可能限制其準確性。未來研究可以考慮多模態模型或與專家系統整合，提升報告生成的準確性和相關性。總的來說，這項研究展示了通用模型在醫療應用中的潛力，但仍需克服技術限制，未來有望開發出更強大的人工智慧助手，幫助醫生在手術室內工作。 </think> ### 1. 研究目的與假設研究旨在探討大型視覺語言模型（VLMs）在腹腔鏡手術影片分析及文件編寫上的應用潛力。假設是這些模型能夠有效執行物體檢測、手術分類、病理分級及報告生成。 ### 2. 方法與設計研究採用觀察性比較設計，評估GPT-4o和Gemini-1.5-pro的表現。優點是多任務評估，揭示模型強弱。缺陷是資料集有限，影片幀率低，可能影響檢測準確性。 ### 3. 數據解釋與結果模型在物體檢測和手術分類上表現良好，但病理分級效果不佳。GPT-4o在報告完整性上優於Gemini-1.5-pro，後者在正確性上更佳。ICL提升工具辨識，但步驟辨識效果不一。 ### 4. 局限性與偏見研究資料來源單一，影片幀率低，可能影響檢測效果。模型缺乏專業知識，可能限制準確性。 ### 5. 臨床及未來研究意涵研究表明VLMs可應用於手術影片分析，未來可開發具有專業知識的模型，提升臨床應用價值。 ### 6. 其他觀點模型在病理分級上的不足可能源於訓練資料的限制，未來可考慮整合多模態資料或專家系統，提升報告生成的準確性和相關性。 ### 總結研究展示了VLMs在醫療應用中的潛力，但仍需克服技術限制。未來發展有望提升手術室的效率和準確性。