MGFusion: a multimodal large language model-guided information perception for infrared and visible image fusion.
MGFusion:一種多模態大型語言模型引導的紅外與可見光影像融合信息感知。
Front Neurorobot 2025-01-07
Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation.
朝向一個整體框架,用於多模態 LLM 在 3D 腦部 CT 放射報告生成中的應用。
Nat Commun 2025-03-06
HiCur-NPC: Hierarchical Feature Fusion Curriculum Learning for Multi-Modal Foundation Model in Nasopharyngeal Carcinoma.
HiCur-NPC:針對鼻咽癌的多模態基礎模型的分層特徵融合課程學習。
IEEE Trans Med Imaging 2025-04-08
Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications.
透過偏好最佳化進行多模態整合知識轉移至大型語言模型於生物醫學應用
ArXiv 2025-05-19
MINT 是一種新架構,可以把多模態生醫模型(結合文字和影像)的知識,轉移到只用文字或影像的單模態大型語言模型。它用 Odds Ratio Preference Optimization 這種偏好最佳化方法,讓單模態模型也能學到專家的決策方式。實驗證明,MINT 在罕見疾病預測和組織分類任務上,比傳統方法更有效,能提升單模態模型的專業表現。
PubMed
Decoupling Discriminative Attributes for Few-shot Fine-Grained Recognition.
針對小樣本細粒度識別的判別屬性解耦。
IEEE Trans Image Process 2025-06-12
CAT+: Investigating and Enhancing Audio-visual Understanding in Large Language Models.
CAT+:探討與提升大型語言模型的視聽理解能力
IEEE Trans Pattern Anal Mach Intell 2025-06-25