Multimodal Large Language Models in Health Care: Applications, Challenges, and Future Outlook.
醫療保健中的多模態大型語言模型：應用、挑戰與未來展望。 J Med Internet Res 2024-09-25

這篇論文探討多模態數據在醫學中的重要性，包括醫學影像、時間序列、音頻、文本、視頻及組學數據。雖然大型語言模型（LLMs）在醫療知識檢索上已有進展，但多數仍專注於文本，未能有效整合各種數據。論文提出一個針對醫學多模態大型語言模型（M-LLMs）的綜合框架，涵蓋原則、應用、挑戰及未來研究方向，旨在促進M-LLMs的整合，提升數據驅動的醫療實踐，並激發對下一代醫療M-LLM系統的討論與創新。 PubMed DOI

LLM-Enhanced multimodal detection of fake news.
LLM增強的多模態假新聞檢測。 PLoS One 2024-10-24

假新聞檢測在資訊時代愈加重要，但現有方法多依賴小型語言模型，對專業新聞表現不佳。為了解決這個問題，我們提出FND-LLM框架，結合小型與大型語言模型，強化多模態假新聞檢測。框架包含文本特徵、視覺語義、視覺篡改、共同注意網絡、跨模態特徵及大型語言模型分支。實驗結果顯示，FND-LLM在Weibo、Gossipcop和Politifact數據集上的準確率分別提升0.7%、6.8%和1.3%。 PubMed DOI

A survey on multimodal large language models.
關於多模態大型語言模型的調查。 Natl Sci Rev 2024-12-16

這篇論文探討了多模態大型語言模型（MLLMs）的最新進展，特別是像GPT-4V這類結合語言處理與多模態任務的模型。作者強調了MLLMs的獨特能力，例如從圖像生成敘事及進行複雜推理，顯示出朝向人工通用智慧的潛力。論文提供了MLLMs的全面概述，包括架構、訓練策略和評估方法，並探討了增強其適應性的方法。此外，還討論了多模態幻覺等問題及未來研究方向，以提升MLLM的能力。 PubMed DOI

MGFusion: a multimodal large language model-guided information perception for infrared and visible image fusion.
MGFusion：一種多模態大型語言模型引導的紅外與可見光影像融合信息感知。 Front Neurorobot 2025-01-07

這項研究提出了一種新方法，利用多模態大型語言模型來融合紅外線和可見光影像，克服了傳統影像融合技術的缺點。主要包含兩個部分：首先是CLIP驅動的資訊注入，提取語意豐富的影像特徵；其次是CLIP引導的特徵融合，有效合併紅外線和可見光特徵，應對複雜場景挑戰。這種方法不需複雜網路架構，實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts.
Uni-MoE：使用專家混合技術擴展統一多模態 LLMs。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

最近在多模態大型語言模型（MLLMs）方面的研究顯示，擴展模型和數據對提升性能至關重要，但計算成本高。為此，我們提出了Uni-MoE，一種新型的統一MLLM，利用混合專家（MoE）架構來處理多種模態。Uni-MoE包含專門的編碼器，並透過稀疏的MoE架構實現高效訓練。我們還提出漸進式訓練策略，改善多專家的協作與泛化能力。實驗結果顯示，Uni-MoE在多模態數據集上表現優異，減少性能偏差。相關代碼可在 https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs 下載。 PubMed DOI

MIFlu: Large Language Model-based Multimodal Influenza Forecasting Scheme.
MIFlu：基於大型語言模型的多模態流感預測方案 IEEE J Biomed Health Inform 2025-04-15

這篇論文提出MIFlu新方法，把流感數據和文字情境結合，並用大型語言模型來預測流感。結果顯示，這種做法預測準確率比傳統方法高出26.2%，證明結合專業知識和情境資訊對疾病預測很有幫助。 PubMed DOI

Assessment and Integration of Large Language Models for Automated Electronic Health Record Documentation in Emergency Medical Services.
大型語言模型於緊急醫療服務自動化電子病歷紀錄之評估與整合 J Med Syst 2025-05-17

這項研究用多個大型語言模型（像是GPT-4、Claude 3.5等）來自動化產生EMS對話的電子病歷，結果比單一模型更準確，F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔，但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估，展現未來應用潛力。 PubMed DOI

A Multimodal Large Language Model Framework for Intelligent Perception and Decision-Making in Smart Manufacturing.
智慧製造中用於智能感知與決策的多模態大型語言模型框架 Sensors (Basel) 2025-05-28

這篇論文提出一套多模態系統，能整合影像、感測器數據和生產紀錄，並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力，採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成，提升即時決策。實驗證明，這方法在影像-文字檢索和視覺問答等任務表現優異，對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

When language and vision meet road safety: Leveraging multimodal large language models for video-based traffic accident analysis.
當語言與視覺相遇於道路安全：運用多模態大型語言模型進行基於影片的交通事故分析 Accid Anal Prev 2025-06-05

這篇論文提出 SeeUnsafe 架構，運用多模態大型語言模型自動化交通監視器事故偵測，不需人工後處理，還能互動式分析影片。系統可彈性調整分析任務，並有新指標 IMS 評估回應品質。實驗證明，SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI

The Synergy Between Data and Multi-Modal Large Language Models: A Survey From Co-Development Perspective.
數據與多模態大型語言模型的協同效應：從共同發展視角的綜述 IEEE Trans Pattern Anal Mach Intell 2025-06-06

這篇文章探討多模態大型語言模型（MLLMs）和訓練資料的互動關係，強調優質多元資料能提升模型表現，而先進模型也能幫助資料優化。文中分析資料與模型如何共同進步，並提供未來研究方向，協助推動MLLMs與資料的雙向發展。 PubMed DOI

原始文章

站上相關主題文章列表