Dual Causes Generation Assisted Model for Multimodal Aspect-Based Sentiment Classification.
多模態方面基情感分類的雙因素生成輔助模型。 IEEE Trans Neural Netw Learn Syst 2024-06-25

多模態方面情感分類（MABSC）是用來判斷社交媒體上特定情感極性的方法。為了提高準確性，提出了多模態雙因素分析（MDCA）方法，能辨識情感背後的原因，並提供推理原因（RC）和直接原因（DC）。透過大型語言模型和視覺-語言模型，建立了具有RC和DC的MABSC數據集。MDCA模型優於現有方法，微調後的小型模型在MABSC上表現比ChatGPT和BLIP-2等大模型更佳。 PubMed DOI

Q-BENCH: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs.
Q-BENCH：一個針對單幅圖像到成對圖像的低階視覺多模態基礎模型的基準。 IEEE Trans Pattern Anal Mach Intell 2024-08-21

多模態大型語言模型（MLLMs）的進展正在改變計算機視覺，尤其是多功能基礎模型的開發。不過，對於低層次視覺感知和理解的評估仍待深入探討。為此，我們建立了基準設置，模擬人類對低層次視覺的語言反應，包含低層次視覺感知（A1）和描述（A2）兩大任務，並引入LLVisionQA+和LLDescribe+數據集。此外，我們還評估了MLLMs預測質量分數的能力（A3）。結果顯示，雖然多數模型在單一圖像上表現不錯，但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

<i>LitAI</i>: Enhancing Multimodal Literature Understanding and Mining with Generative AI.
<i>LitAI</i>: 透過生成式 AI 增強多模態文學理解與挖掘。 Proc (IEEE Conf Multimed Inf Process Retr) 2024-11-01

這篇論文介紹了**LitAI**，一種新方法，旨在提升從各種文獻格式（如文本、表格和圖形）中檢索資訊的能力。LitAI 結合了生成式人工智慧工具與光學字符識別（OCR），有效改善從 PDF 文件提取資訊的效果。作者透過特定提示和上下文學習，確保資訊檢索的準確性。實證評估顯示，LitAI 的表現超越了 Tesseract-OCR 和 GPT-4 等現有方法。LitAI 的實作已在 GitHub 上提供，詳情可參考相關連結。 PubMed DOI

Leveraging ChatGPT for Enhanced Aesthetic Evaluations in Minimally Invasive Facial Procedures.
利用 ChatGPT 提升微創面部手術的美學評估。 Aesthetic Plast Surg 2024-11-22

近年來，像ChatGPT這類人工智慧技術在整形外科的應用越來越普遍，特別是在評估美容手術效果方面。一項研究針對「Face Rating and Review AI」模型，專注於微創美容程序中的面部特徵，尤其是肉毒桿菌治療。研究分析了79篇2023至2024年的文章，顯示美國、澳洲和義大利在此領域的貢獻。使用Kaggle的23名患者數據，模型評估了客觀和主觀參數，結果顯示治療後面部特徵有顯著改善。研究強調倫理考量，未來需多樣化數據集以提升準確性。 PubMed DOI

MGFusion: a multimodal large language model-guided information perception for infrared and visible image fusion.
MGFusion：一種多模態大型語言模型引導的紅外與可見光影像融合信息感知。 Front Neurorobot 2025-01-07

這項研究提出了一種新方法，利用多模態大型語言模型來融合紅外線和可見光影像，克服了傳統影像融合技術的缺點。主要包含兩個部分：首先是CLIP驅動的資訊注入，提取語意豐富的影像特徵；其次是CLIP引導的特徵融合，有效合併紅外線和可見光特徵，應對複雜場景挑戰。這種方法不需複雜網路架構，實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning.
CLEFT：結合高效大型語言模型與提示微調的語言-影像對比學習。 Med Image Comput Comput Assist Interv 2025-01-10

最近的研究顯示，對比語言-圖像預訓練（CLIP）在多項任務中表現優異，但傳統方法需大量GPU資源，對醫療應用造成限制。為了解決這些問題，我們提出了一種新方法，稱為CLEFT，結合高效的大型語言模型與提示微調。這種方法縮小了臨床數據與簡單標籤之間的差距，並在胸部X光和乳腺攝影等數據集上達到最先進的性能。更重要的是，我們的框架將可訓練模型大小減少39%，使其在醫療應用中更具實用性。 PubMed DOI

CuTCP: Custom Text Generation-based Class-aware Prompt Tuning for visual-language models.
CuTCP: 基於自定義文本生成的類別感知提示調整於視覺-語言模型。 Sci Rep 2025-01-21

視覺語言模型（VLMs）在跨模態推理上表現優異，因為它們能整合視覺與語言特徵。最近的進展集中在透過提示學習進行微調，以適應不同任務。TCP方法雖然能增強VLM的泛化能力，但固定的文本模板可能無法捕捉細微的類別差異。為了解決這個問題，我們提出了自定義文本生成的類別感知提示調整（CuTCP），利用大型語言模型生成更具描述性的提示，提升模型對已知與未見類別的區分能力。實驗顯示，CuTCP在新類別上改善了0.74%，並在11個多樣化的圖像數據集上整體提升了0.44%。這證明CuTCP有效增強了模型的適應性與泛化能力，特別是在細粒度分類任務中。 PubMed DOI

Harnessing Multi-modal Large Language Models for Measuring and Interpreting Color Differences.
利用多模態大型語言模型來測量和解釋顏色差異。 IEEE Trans Image Process 2025-03-03

在智慧型手機攝影中，準確測量影像的感知色差（CDs）非常重要。傳統指標雖然提供數值評分，但無法清楚解釋差異原因。為了解決這個問題，我們推出了CD-Reasoning，這不僅計算CD分數，還能以符合人類感知的方式解釋差異。 CD-Reasoning基於新的多模態數據集M-SPCD，涵蓋七個關鍵屬性，如白平衡和亮度對比。透過這個數據集，我們增強了多模態大型語言模型（MLLMs），能更準確評估CD並詳細解釋影像差異。實驗結果顯示，CD-Reasoning在準確性和解釋能力上均優於現有指標和MLLMs。源代碼將在 https://github.com/LongYu-LY/CD-Reasoning 提供。 PubMed DOI

T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-Image Generation.
T2I-CompBench++：一個增強且全面的基準，用於組合文本到圖像生成。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

這段文字介紹了 T2I-CompBench++，一個新基準，旨在提升文本到圖像的生成效果。它包含 8,000 個提示，分為四大類別：屬性綁定、物件關係、生成數學能力和複雜組合，還有八個子類別，如 3D 空間關係。此外，基準引入了新的評估指標，特別是針對 3D 關係和數學能力的檢測指標，並利用多模態大型語言模型進行分析。研究評估了 11 個文本到圖像模型，包括 FLUX.1 和 DALLE-3，以測試基準的有效性和 MLLMs 的能力。更多資訊可參考專案頁面。 PubMed DOI

Generative Large Model-Driven Methodology for Color Matching and Shape Design in IP Products.
基於生成大型模型的IP產品顏色匹配與形狀設計方法論。 Entropy (Basel) 2025-03-28

這項研究強調了大型生成模型在旅遊IP文化產品設計中的應用，並指出AI生成內容（AIGC）對傳統設計過程的重要性。研究提出了一個四階段的方法論，包含情感探索、形狀生成、顏色生成和顏色和諧評估。透過使用GPT-4o和Midjourney，研究能夠了解訪客需求並創造出符合意象的設計。案例研究顯示，這個方法論在旅遊IP產品設計中具有效性，並且定量與定性評估之間有強相關性。 PubMed DOI

原始文章

站上相關主題文章列表