原始文章

最近通用視覺-語言模型(VLMs)在多模態任務上展現出強大的推理能力,但在物體理解和定位上仍有挑戰。現有模型常將文本與圖像標記對齊,可能導致嵌入不佳及背景特徵干擾,且對新視覺概念的泛化能力不足。為了解決這些問題,我們提出一種新方法,透過上下文中的視覺物體向量來提示大型語言模型,提升物體級推理的精確度,並加快訓練速度。我們的實驗顯示,這種方法在物體分類和標題生成上表現優異,並在複雜場景中具備良好的泛化能力。 PubMed DOI


站上相關主題文章列表

這項研究提出了一種新方法,利用多模態大型語言模型來融合紅外線和可見光影像,克服了傳統影像融合技術的缺點。主要包含兩個部分:首先是CLIP驅動的資訊注入,提取語意豐富的影像特徵;其次是CLIP引導的特徵融合,有效合併紅外線和可見光特徵,應對複雜場景挑戰。這種方法不需複雜網路架構,實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

多模態大型語言模型(MLLMs)正在快速進步,特別是大型視覺-語言模型(LVLMs),能同時處理圖像和文本。這些模型將圖像拆分成標記,並與文本整合,但在複雜推理任務中難以解釋。為了解決這個問題,研究者使用Grad-CAM分析圖像和文本的互動,發現信息流在早期層集中,後期則分散。基於此,他們提出Simignore技術,透過評估圖像和文本嵌入的相似性,忽略不相關的標記,提升推理能力。實驗顯示Simignore在複雜任務中表現優異,增強了MLLM的可解釋性,並為未來研究奠定基礎。源代碼可在 https://github.com/FanshuoZeng/Simignore 獲得。 PubMed DOI

針對外科手術中的視覺問題定位(Surgical-VQLA)研究,解決了醫學生和初級醫生在獲取手術資訊的挑戰。提出的「利用大型語言模型驅動的知識圖譜增強視覺推理」(EnVR-LPKG)框架,透過大型語言模型生成的知識圖譜,提升對手術器械、器官及程序的理解。 框架主要包含: 1. **細粒度知識提取器(FKE)**:從知識圖譜提取資訊,並用對比學習對齊手術影像。 2. **基於多重注意力的手術器械增強器(MSIE)**:整合視覺與文本特徵,增強手術器械的表徵。 該方法在EndoVis-17-VQLA和EndoVis-18-VQLA數據集上表現優於現有技術,研究團隊計劃釋出程式碼以促進進一步研究。 PubMed DOI

這篇論文介紹了一種新策略,稱為導航思維鏈(NavCoT),旨在提升大型語言模型(LLMs)在視覺與語言導航(VLN)中的表現。由於訓練數據與VLN任務之間的差距,LLMs常面臨挑戰。NavCoT透過領域內訓練,幫助LLM進行自我引導的導航決策,包含三個步驟:想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示,NavCoT在多個VLN基準測試中表現優於傳統方法,並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

這篇論文提出一種全新的高效轉移學習方法,專門用在視覺-語言模型。它結合了兩種特徵調整器,並利用大型語言模型自動產生更精細、具情境的提示,取代傳統模板化文字。這讓模型能更準確分辨不同類別,在11個資料集上都拿下最佳成績。程式碼和提示內容可在 GitHub 查詢。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

作者發現,單純的VLMs在影像分類上表現比結合LLMs還好,但LLMs在需要推理或外部知識時有優勢。為此,他們提出一個輕量級的LLM router,能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練,效果不輸GPT-4V等先進系統,且成本更低。 PubMed DOI

LLMs 只靠語言就能學到像人類一樣的抽象概念,但在感官和動作相關的概念上,跟人類還是有落差。加入視覺等多感官訓練後,LLMs 在這些領域的表現會更接近人類。這說明多感官經驗對 LLMs 形成完整人類概念很重要。 PubMed DOI

這篇論文提出 CoS-PIL,一個輕量級影像情境辨識框架,不用微調大型多模態語言模型,只靠設計好的提示語和逐步推理流程,預測影像中的動詞、名詞和角色。它還用 chain-of-interest predictor 萃取關鍵資訊,提升辨識準確率。實驗結果在 SWiG 基準上表現優於現有方法。程式碼已開源。 PubMed DOI

這篇論文提出一個能調整題目難度的REC資料集,並設計具挑戰性的負樣本,讓多模態模型測試更精確。作者提出兩種結合專家模型和多模態大型語言模型的方法:一是簡單題交給輕量模型,難題再給MLLM處理,提升效率;二是專家模型先篩選物件區域,再由MLLM選答案。這兩種合作方式都讓REC任務表現大幅進步,證明專業和通用模型結合很有效。 PubMed DOI