多模態大型語言模型(MLLMs)正在快速進步,特別是大型視覺-語言模型(LVLMs),能同時處理圖像和文本。這些模型將圖像拆分成標記,並與文本整合,但在複雜推理任務中難以解釋。為了解決這個問題,研究者使用Grad-CAM分析圖像和文本的互動,發現信息流在早期層集中,後期則分散。基於此,他們提出Simignore技術,透過評估圖像和文本嵌入的相似性,忽略不相關的標記,提升推理能力。實驗顯示Simignore在複雜任務中表現優異,增強了MLLM的可解釋性,並為未來研究奠定基礎。源代碼可在 https://github.com/FanshuoZeng/Simignore 獲得。 PubMed DOI
針對外科手術中的視覺問題定位(Surgical-VQLA)研究,解決了醫學生和初級醫生在獲取手術資訊的挑戰。提出的「利用大型語言模型驅動的知識圖譜增強視覺推理」(EnVR-LPKG)框架,透過大型語言模型生成的知識圖譜,提升對手術器械、器官及程序的理解。 框架主要包含: 1. **細粒度知識提取器(FKE)**:從知識圖譜提取資訊,並用對比學習對齊手術影像。 2. **基於多重注意力的手術器械增強器(MSIE)**:整合視覺與文本特徵,增強手術器械的表徵。 該方法在EndoVis-17-VQLA和EndoVis-18-VQLA數據集上表現優於現有技術,研究團隊計劃釋出程式碼以促進進一步研究。 PubMed DOI