多模態大型語言模型(MLLMs)正在快速進步,特別是大型視覺-語言模型(LVLMs),能同時處理圖像和文本。這些模型將圖像拆分成標記,並與文本整合,但在複雜推理任務中難以解釋。為了解決這個問題,研究者使用Grad-CAM分析圖像和文本的互動,發現信息流在早期層集中,後期則分散。基於此,他們提出Simignore技術,透過評估圖像和文本嵌入的相似性,忽略不相關的標記,提升推理能力。實驗顯示Simignore在複雜任務中表現優異,增強了MLLM的可解釋性,並為未來研究奠定基礎。源代碼可在 https://github.com/FanshuoZeng/Simignore 獲得。 PubMed DOI