原始文章

這篇論文提出CAT+方法,專為提升多模態大型語言模型在影音問答上的表現,解決理解模糊和幻覺問題。CAT+用SQM強化理解,AS-DPO減少模糊回答,並設計AVHbench評測模型幻覺現象。實驗證明CAT+比現有方法更準確可靠。 PubMed DOI


站上相關主題文章列表

多模態大型語言模型(MLLMs)正在快速進步,特別是大型視覺-語言模型(LVLMs),能同時處理圖像和文本。這些模型將圖像拆分成標記,並與文本整合,但在複雜推理任務中難以解釋。為了解決這個問題,研究者使用Grad-CAM分析圖像和文本的互動,發現信息流在早期層集中,後期則分散。基於此,他們提出Simignore技術,透過評估圖像和文本嵌入的相似性,忽略不相關的標記,提升推理能力。實驗顯示Simignore在複雜任務中表現優異,增強了MLLM的可解釋性,並為未來研究奠定基礎。源代碼可在 https://github.com/FanshuoZeng/Simignore 獲得。 PubMed DOI

這篇論文探討了評估多模態大型語言模型(LLMs)創造力的挑戰,因為創造力本身很主觀。作者建議使用Oogiri遊戲來評估LLM的創造力,因為這個遊戲需要幽默感和聯想思維,且有結構化的輸入輸出格式和高品質的人類標註回應。他們還介紹了LoTbench,一個互動式評估框架,旨在解決標準評估中的信息洩漏和可解釋性問題。研究顯示,LLM的創造力雖然不及人類,但差距不大,且LoTbench與人類認知理論的相關性強,突顯了認知在創造力早期階段的重要性。 PubMed DOI

這篇文章探討了多模態推薦系統的最新進展,這些系統結合文本、圖像和用戶對話等多種數據。文章指出兩大挑戰:用戶需求的複雜性和高品質數據集的不足,尤其在互動場景中。提出的解決方案結合多模態技術與大型語言模型(LLMs),提升用戶互動和推薦準確性。關鍵技術包括交叉注意力機制、多圖神經網絡和自我反思機制。實驗結果顯示,這些模型在準確率和召回率上超越現有方法,並在視覺問答任務中表現優異,顯示出其實際應用潛力。 PubMed DOI

Prophet 是一套新型的視覺問答框架,能提升大型語言模型在圖片問答時結合視覺資訊和外部知識的能力。它會先用 VQA 模型產生答案候選和範例,再整理成 prompt 給 LLM,讓回答更精準。Prophet 在多個資料集上表現優異,且能搭配不同模型使用,進階版 Prophet++ 效果更好。 PubMed DOI

目前針對多模態大型語言模型處理點雲資料的評測標準很有限,難以全面評估模型的空間理解與推理能力。為此,作者提出3DBench,涵蓋十項物件與場景任務,並分為表達、感知、推理三類。作者也建立了超過23萬筆3D指令問答資料集,並設計Bench-model來提升表現。程式碼和資料已開源於GitHub。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

作者發現,單純的VLMs在影像分類上表現比結合LLMs還好,但LLMs在需要推理或外部知識時有優勢。為此,他們提出一個輕量級的LLM router,能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練,效果不輸GPT-4V等先進系統,且成本更低。 PubMed DOI

這篇論文提出 SeeUnsafe 架構,運用多模態大型語言模型自動化交通監視器事故偵測,不需人工後處理,還能互動式分析影片。系統可彈性調整分析任務,並有新指標 IMS 評估回應品質。實驗證明,SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI

這篇文章探討多模態大型語言模型(MLLMs)和訓練資料的互動關係,強調優質多元資料能提升模型表現,而先進模型也能幫助資料優化。文中分析資料與模型如何共同進步,並提供未來研究方向,協助推動MLLMs與資料的雙向發展。 PubMed DOI

這篇論文提出Argus,一種結合2D多視角影像、相機位置和3D點雲的新3D多模態架構。Argus融合2D細節和3D特徵,彌補單靠點雲資訊不足的問題,讓大型語言模型在3D場景理解上更精準。實驗證明,Argus在多項3D任務表現都比現有方法更優秀。 PubMed DOI