Simignore: Exploring and enhancing multimodal large model complex reasoning via similarity computation.
Simignore：透過相似性計算探索與增強多模態大型模型的複雜推理。 Neural Netw 2025-01-09

多模態大型語言模型（MLLMs）正在快速進步，特別是大型視覺-語言模型（LVLMs），能同時處理圖像和文本。這些模型將圖像拆分成標記，並與文本整合，但在複雜推理任務中難以解釋。為了解決這個問題，研究者使用Grad-CAM分析圖像和文本的互動，發現信息流在早期層集中，後期則分散。基於此，他們提出Simignore技術，透過評估圖像和文本嵌入的相似性，忽略不相關的標記，提升推理能力。實驗顯示Simignore在複雜任務中表現優異，增強了MLLM的可解釋性，並為未來研究奠定基礎。源代碼可在 https://github.com/FanshuoZeng/Simignore 獲得。 PubMed DOI

A Causality-Aware Paradigm for Evaluating Creativity of Multimodal Large Language Models.
一個關注因果關係的範式，用於評估多模態大型語言模型的創造力。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

這篇論文探討了評估多模態大型語言模型（LLMs）創造力的挑戰，因為創造力本身很主觀。作者建議使用Oogiri遊戲來評估LLM的創造力，因為這個遊戲需要幽默感和聯想思維，且有結構化的輸入輸出格式和高品質的人類標註回應。他們還介紹了LoTbench，一個互動式評估框架，旨在解決標準評估中的信息洩漏和可解釋性問題。研究顯示，LLM的創造力雖然不及人類，但差距不大，且LoTbench與人類認知理論的相關性強，突顯了認知在創造力早期階段的重要性。 PubMed DOI

MMAgentRec, a personalized multi-modal recommendation agent with large language model.
MMAgentRec：一個具大型語言模型的個性化多模態推薦代理。 Sci Rep 2025-04-08

這篇文章探討了多模態推薦系統的最新進展，這些系統結合文本、圖像和用戶對話等多種數據。文章指出兩大挑戰：用戶需求的複雜性和高品質數據集的不足，尤其在互動場景中。提出的解決方案結合多模態技術與大型語言模型（LLMs），提升用戶互動和推薦準確性。關鍵技術包括交叉注意力機制、多圖神經網絡和自我反思機制。實驗結果顯示，這些模型在準確率和召回率上超越現有方法，並在視覺問答任務中表現優異，顯示出其實際應用潛力。 PubMed DOI

Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering.
Prophet：以互補性答案啟發式引導大型語言模型進行知識型視覺問答 IEEE Trans Pattern Anal Mach Intell 2025-04-18

Prophet 是一套新型的視覺問答框架，能提升大型語言模型在圖片問答時結合視覺資訊和外部知識的能力。它會先用 VQA 模型產生答案候選和範例，再整理成 prompt 給 LLM，讓回答更精準。Prophet 在多個資料集上表現優異，且能搭配不同模型使用，進階版 Prophet++ 效果更好。 PubMed DOI

3DBench: A scalable benchmark for object and scene-level instruction-tuning of 3D large language models.
3DBench：用於3D大型語言模型物件與場景層級指令微調的可擴展性基準 Neural Netw 2025-05-17

目前針對多模態大型語言模型處理點雲資料的評測標準很有限，難以全面評估模型的空間理解與推理能力。為此，作者提出3DBench，涵蓋十項物件與場景任務，並分為表達、感知、推理三類。作者也建立了超過23萬筆3D指令問答資料集，並設計Bench-model來提升表現。程式碼和資料已開源於GitHub。 PubMed DOI

A Multimodal Large Language Model Framework for Intelligent Perception and Decision-Making in Smart Manufacturing.
智慧製造中用於智能感知與決策的多模態大型語言模型框架 Sensors (Basel) 2025-05-28

這篇論文提出一套多模態系統，能整合影像、感測器數據和生產紀錄，並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力，採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成，提升即時決策。實驗證明，這方法在影像-文字檢索和視覺問答等任務表現優異，對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

Rethinking VLMs and LLMs for image classification.
重新思考 VLMs 與 LLMs 在影像分類上的應用 Sci Rep 2025-06-04

作者發現，單純的VLMs在影像分類上表現比結合LLMs還好，但LLMs在需要推理或外部知識時有優勢。為此，他們提出一個輕量級的LLM router，能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練，效果不輸GPT-4V等先進系統，且成本更低。 PubMed DOI

When language and vision meet road safety: Leveraging multimodal large language models for video-based traffic accident analysis.
當語言與視覺相遇於道路安全：運用多模態大型語言模型進行基於影片的交通事故分析 Accid Anal Prev 2025-06-05

這篇論文提出 SeeUnsafe 架構，運用多模態大型語言模型自動化交通監視器事故偵測，不需人工後處理，還能互動式分析影片。系統可彈性調整分析任務，並有新指標 IMS 評估回應品質。實驗證明，SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI

The Synergy Between Data and Multi-Modal Large Language Models: A Survey From Co-Development Perspective.
數據與多模態大型語言模型的協同效應：從共同發展視角的綜述 IEEE Trans Pattern Anal Mach Intell 2025-06-06

這篇文章探討多模態大型語言模型（MLLMs）和訓練資料的互動關係，強調優質多元資料能提升模型表現，而先進模型也能幫助資料優化。文中分析資料與模型如何共同進步，並提供未來研究方向，協助推動MLLMs與資料的雙向發展。 PubMed DOI

Argus: Leveraging Multiview Images for Improved 3-D Scene Understanding With Large Language Models.
Argus：結合多視角影像與大型語言模型以提升3D場景理解 IEEE Trans Neural Netw Learn Syst 2025-06-25

這篇論文提出Argus，一種結合2D多視角影像、相機位置和3D點雲的新3D多模態架構。Argus融合2D細節和3D特徵，彌補單靠點雲資訊不足的問題，讓大型語言模型在3D場景理解上更精準。實驗證明，Argus在多項3D任務表現都比現有方法更優秀。 PubMed DOI

原始文章

站上相關主題文章列表