T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-Image Generation.
T2I-CompBench++:一個增強且全面的基準,用於組合文本到圖像生成。
IEEE Trans Pattern Anal Mach Intell 2025-03-03
這段文字介紹了 T2I-CompBench++,一個新基準,旨在提升文本到圖像的生成效果。它包含 8,000 個提示,分為四大類別:屬性綁定、物件關係、生成數學能力和複雜組合,還有八個子類別,如 3D 空間關係。此外,基準引入了新的評估指標,特別是針對 3D 關係和數學能力的檢測指標,並利用多模態大型語言模型進行分析。研究評估了 11 個文本到圖像模型,包括 FLUX.1 和 DALLE-3,以測試基準的有效性和 MLLMs 的能力。更多資訊可參考專案頁面。
PubMedDOI
PromptAid: Visual Prompt Exploration, Perturbation, Testing and Iteration for Large Language Models.
PromptAid: 大型語言模型的視覺提示探索、擾動、測試與迭代。
IEEE Trans Vis Comput Graph 2025-03-03
Enhancing structured data generation with GPT-4o evaluating prompt efficiency across prompt styles.
利用 GPT-4 增強結構化數據生成,評估不同提示風格的提示效率。
Front Artif Intell 2025-04-10
MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning.
MSCPT:以多尺度與聚焦脈絡提示調校進行少樣本全片影像分類
IEEE Trans Med Imaging 2025-04-29
A Multimodal Large Language Model Framework for Intelligent Perception and Decision-Making in Smart Manufacturing.
智慧製造中用於智能感知與決策的多模態大型語言模型框架
Sensors (Basel) 2025-05-28
AFSPrompt: An Axiomatic Fuzzy Set Prompt Pipeline for Knowledge-Based VQA.
AFSPrompt:一個用於知識型視覺問答(VQA)的公理化模糊集提示流程
IEEE Trans Neural Netw Learn Syst 2025-06-02
這篇論文提出 AFSPrompt,一種免訓練的新方法,專門用來挑選和組織知識型視覺問答的範例。它用語意概念來描述範例,讓選擇過程更透明、可信。AFSPrompt 先用多模態嵌入過濾不相關範例,再用模糊集合邏輯排序,適合小型語言模型,減少對大型 API 依賴。實驗證明能有效提升 VQA 表現。程式碼:https://github.com/afs001/AFSPrompt
PubMedDOI
Rethinking VLMs and LLMs for image classification.
重新思考 VLMs 與 LLMs 在影像分類上的應用
Sci Rep 2025-06-04
CAT+: Investigating and Enhancing Audio-visual Understanding in Large Language Models.
CAT+:探討與提升大型語言模型的視聽理解能力
IEEE Trans Pattern Anal Mach Intell 2025-06-25