New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration.
細緻組合型指稱表達理解之新資料集與方法:透過專家-MLLM協作
IEEE Trans Pattern Anal Mach Intell 2025-06-16
T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-Image Generation.
T2I-CompBench++:一個增強且全面的基準,用於組合文本到圖像生成。
IEEE Trans Pattern Anal Mach Intell 2025-03-03
這段文字介紹了 T2I-CompBench++,一個新基準,旨在提升文本到圖像的生成效果。它包含 8,000 個提示,分為四大類別:屬性綁定、物件關係、生成數學能力和複雜組合,還有八個子類別,如 3D 空間關係。此外,基準引入了新的評估指標,特別是針對 3D 關係和數學能力的檢測指標,並利用多模態大型語言模型進行分析。研究評估了 11 個文本到圖像模型,包括 FLUX.1 和 DALLE-3,以測試基準的有效性和 MLLMs 的能力。更多資訊可參考專案頁面。
PubMedDOI
Large Language Model with Region-guided Referring and Grounding for CT Report Generation.
區域引導參考與定位的大型語言模型在 CT 報告生成中的應用。
IEEE Trans Med Imaging 2025-04-11
A Multimodal Large Language Model Framework for Intelligent Perception and Decision-Making in Smart Manufacturing.
智慧製造中用於智能感知與決策的多模態大型語言模型框架
Sensors (Basel) 2025-05-28
The Synergy Between Data and Multi-Modal Large Language Models: A Survey From Co-Development Perspective.
數據與多模態大型語言模型的協同效應:從共同發展視角的綜述
IEEE Trans Pattern Anal Mach Intell 2025-06-06