原始文章

這篇論文提出 CoS-PIL,一個輕量級影像情境辨識框架,不用微調大型多模態語言模型,只靠設計好的提示語和逐步推理流程,預測影像中的動詞、名詞和角色。它還用 chain-of-interest predictor 萃取關鍵資訊,提升辨識準確率。實驗結果在 SWiG 基準上表現優於現有方法。程式碼已開源。 PubMed DOI


站上相關主題文章列表

隨著人工智慧的快速進步,服務機器人在日常生活中越來越普遍,這要求它們能準確識別人類意圖。現有方法在複雜環境中常常無法達標。為了解決這個問題,我們提出了一個基於大型語言模型和知識圖譜的意圖識別框架(LKIRF)。這個框架結合了大型語言模型和知識圖譜,提升了服務機器人的意圖識別能力。實驗結果顯示,LKIRF在各種場景中的預測準確性超越傳統方法,並增強了意圖推理的透明度和可解釋性。 PubMed DOI

多模態大型語言模型(MLLMs)正在快速進步,特別是大型視覺-語言模型(LVLMs),能同時處理圖像和文本。這些模型將圖像拆分成標記,並與文本整合,但在複雜推理任務中難以解釋。為了解決這個問題,研究者使用Grad-CAM分析圖像和文本的互動,發現信息流在早期層集中,後期則分散。基於此,他們提出Simignore技術,透過評估圖像和文本嵌入的相似性,忽略不相關的標記,提升推理能力。實驗顯示Simignore在複雜任務中表現優異,增強了MLLM的可解釋性,並為未來研究奠定基礎。源代碼可在 https://github.com/FanshuoZeng/Simignore 獲得。 PubMed DOI

S2ERS 技術旨在提升大型語言模型(LLMs)在迷宮環境中的空間推理能力,改善路徑規劃。它採用了三個關鍵策略:首先,透過圖結構提取,幫助 LLMs 理解空間關係,減少錯誤;其次,納入狀態-行動價值函數(Q),指導 LLM 的決策,避免陷入死胡同;最後,透過多步推理,動態插入局部 Q 表,讓 LLM 同時生成多個行動步驟。實驗顯示,S2ERS 顯著減少了空間幻覺問題,成功率和最佳率分別提高約 29% 和 19%。 PubMed DOI

最近通用視覺-語言模型(VLMs)在多模態任務上展現出強大的推理能力,但在物體理解和定位上仍有挑戰。現有模型常將文本與圖像標記對齊,可能導致嵌入不佳及背景特徵干擾,且對新視覺概念的泛化能力不足。為了解決這些問題,我們提出一種新方法,透過上下文中的視覺物體向量來提示大型語言模型,提升物體級推理的精確度,並加快訓練速度。我們的實驗顯示,這種方法在物體分類和標題生成上表現優異,並在複雜場景中具備良好的泛化能力。 PubMed DOI

這篇論文介紹了一種新策略,稱為導航思維鏈(NavCoT),旨在提升大型語言模型(LLMs)在視覺與語言導航(VLN)中的表現。由於訓練數據與VLN任務之間的差距,LLMs常面臨挑戰。NavCoT透過領域內訓練,幫助LLM進行自我引導的導航決策,包含三個步驟:想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示,NavCoT在多個VLN基準測試中表現優於傳統方法,並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

這篇論文提出LLaFS++新架構,首次用大型語言模型(LLMs)來提升少量樣本分割(FSS)效果。透過LLMs的知識,LLaFS++能克服標註資料少的問題,分割表現更好。架構有多項創新設計,像是直接輸出多邊形、區域-屬性表、多模態引導、課程學習結合偽樣本合成,以及新推論方法減少過度分割。實驗結果在多個基準上都拿下最佳表現,展現LLMs在少量樣本視覺任務的潛力。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

這篇論文提出 AFSPrompt,一種免訓練的新方法,專門用來挑選和組織知識型視覺問答的範例。它用語意概念來描述範例,讓選擇過程更透明、可信。AFSPrompt 先用多模態嵌入過濾不相關範例,再用模糊集合邏輯排序,適合小型語言模型,減少對大型 API 依賴。實驗證明能有效提升 VQA 表現。程式碼:https://github.com/afs001/AFSPrompt PubMed DOI

作者發現,單純的VLMs在影像分類上表現比結合LLMs還好,但LLMs在需要推理或外部知識時有優勢。為此,他們提出一個輕量級的LLM router,能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練,效果不輸GPT-4V等先進系統,且成本更低。 PubMed DOI

這篇論文提出一個能調整題目難度的REC資料集,並設計具挑戰性的負樣本,讓多模態模型測試更精確。作者提出兩種結合專家模型和多模態大型語言模型的方法:一是簡單題交給輕量模型,難題再給MLLM處理,提升效率;二是專家模型先篩選物件區域,再由MLLM選答案。這兩種合作方式都讓REC任務表現大幅進步,證明專業和通用模型結合很有效。 PubMed DOI