T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-Image Generation.
T2I-CompBench++：一個增強且全面的基準，用於組合文本到圖像生成。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

這段文字介紹了 T2I-CompBench++，一個新基準，旨在提升文本到圖像的生成效果。它包含 8,000 個提示，分為四大類別：屬性綁定、物件關係、生成數學能力和複雜組合，還有八個子類別，如 3D 空間關係。此外，基準引入了新的評估指標，特別是針對 3D 關係和數學能力的檢測指標，並利用多模態大型語言模型進行分析。研究評估了 11 個文本到圖像模型，包括 FLUX.1 和 DALLE-3，以測試基準的有效性和 MLLMs 的能力。更多資訊可參考專案頁面。 PubMed DOI

OLIVE: Object Level In-Context Visual Embeddings.
OLIVE: 物件層級上下文視覺嵌入。 Proc Conf Assoc Comput Linguist Meet 2025-03-25

最近通用視覺-語言模型（VLMs）在多模態任務上展現出強大的推理能力，但在物體理解和定位上仍有挑戰。現有模型常將文本與圖像標記對齊，可能導致嵌入不佳及背景特徵干擾，且對新視覺概念的泛化能力不足。為了解決這些問題，我們提出一種新方法，透過上下文中的視覺物體向量來提示大型語言模型，提升物體級推理的精確度，並加快訓練速度。我們的實驗顯示，這種方法在物體分類和標題生成上表現優異，並在複雜場景中具備良好的泛化能力。 PubMed DOI

MMAgentRec, a personalized multi-modal recommendation agent with large language model.
MMAgentRec：一個具大型語言模型的個性化多模態推薦代理。 Sci Rep 2025-04-08

這篇文章探討了多模態推薦系統的最新進展，這些系統結合文本、圖像和用戶對話等多種數據。文章指出兩大挑戰：用戶需求的複雜性和高品質數據集的不足，尤其在互動場景中。提出的解決方案結合多模態技術與大型語言模型（LLMs），提升用戶互動和推薦準確性。關鍵技術包括交叉注意力機制、多圖神經網絡和自我反思機制。實驗結果顯示，這些模型在準確率和召回率上超越現有方法，並在視覺問答任務中表現優異，顯示出其實際應用潛力。 PubMed DOI

Large Language Model with Region-guided Referring and Grounding for CT Report Generation.
區域引導參考與定位的大型語言模型在 CT 報告生成中的應用。 IEEE Trans Med Imaging 2025-04-11

Reg2RG框架針對CT報告生成的挑戰，專注於特定解剖區域，提升診斷性能。它利用通用分割模組的遮罩捕捉局部特徵，並引入局部特徵解耦（LFD）策略，以低計算成本保持高解析度。框架還實施區域報告對齊（RRA）訓練策略，透過識別參考區域來生成更具可解釋性的報告。大型語言模型（LLM）用作解碼器，從視覺特徵生成報告。實驗結果顯示，Reg2RG在自然語言生成和臨床效能上超越多種先進方法，且代碼已在GitHub公開。 PubMed DOI

A Multimodal Large Language Model Framework for Intelligent Perception and Decision-Making in Smart Manufacturing.
智慧製造中用於智能感知與決策的多模態大型語言模型框架 Sensors (Basel) 2025-05-28

這篇論文提出一套多模態系統，能整合影像、感測器數據和生產紀錄，並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力，採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成，提升即時決策。實驗證明，這方法在影像-文字檢索和視覺問答等任務表現優異，對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

Rethinking VLMs and LLMs for image classification.
重新思考 VLMs 與 LLMs 在影像分類上的應用 Sci Rep 2025-06-04

作者發現，單純的VLMs在影像分類上表現比結合LLMs還好，但LLMs在需要推理或外部知識時有優勢。為此，他們提出一個輕量級的LLM router，能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練，效果不輸GPT-4V等先進系統，且成本更低。 PubMed DOI

The Synergy Between Data and Multi-Modal Large Language Models: A Survey From Co-Development Perspective.
數據與多模態大型語言模型的協同效應：從共同發展視角的綜述 IEEE Trans Pattern Anal Mach Intell 2025-06-06

這篇文章探討多模態大型語言模型（MLLMs）和訓練資料的互動關係，強調優質多元資料能提升模型表現，而先進模型也能幫助資料優化。文中分析資料與模型如何共同進步，並提供未來研究方向，協助推動MLLMs與資料的雙向發展。 PubMed DOI

Collaborate large and small language models for multi-modal emergency rumor detection.
協作大型與小型語言模型於多模態緊急謠言偵測 Neural Netw 2025-06-11

這篇論文提出 M2ERD 方法，結合大、小型語言模型優點來偵測多模態緊急謠言，並設計新融合網路整合文字和圖片資訊。實驗證明 M2ERD 在多個資料集的準確率和 F1-score 都優於現有方法，程式碼和資料已公開在 GitHub。 PubMed DOI

Decoupling Discriminative Attributes for Few-shot Fine-Grained Recognition.
針對小樣本細粒度識別的判別屬性解耦。 IEEE Trans Image Process 2025-06-12

這篇論文提出 AttrDD，一種專為視覺-語言模型設計的階層式少量樣本微調框架。它先用微調後的模型縮小到最容易混淆的幾個類別，再用大型語言模型產生屬性描述來細分。這種兩階段、以屬性為主的方法，搭配輕量級 adapter，不只提升微調效率，在多項基準測試上也優於現有方法。 PubMed DOI

CAT+: Investigating and Enhancing Audio-visual Understanding in Large Language Models.
CAT+：探討與提升大型語言模型的視聽理解能力 IEEE Trans Pattern Anal Mach Intell 2025-06-25

這篇論文提出CAT+方法，專為提升多模態大型語言模型在影音問答上的表現，解決理解模糊和幻覺問題。CAT+用SQM強化理解，AS-DPO減少模糊回答，並設計AVHbench評測模型幻覺現象。實驗證明CAT+比現有方法更準確可靠。 PubMed DOI

原始文章

站上相關主題文章列表