原始文章

這篇論文提出 M2ERD 方法,結合大、小型語言模型優點來偵測多模態緊急謠言,並設計新融合網路整合文字和圖片資訊。實驗證明 M2ERD 在多個資料集的準確率和 F1-score 都優於現有方法,程式碼和資料已公開在 GitHub。 PubMed DOI


站上相關主題文章列表

這篇論文探討多模態數據在醫學中的重要性,包括醫學影像、時間序列、音頻、文本、視頻及組學數據。雖然大型語言模型(LLMs)在醫療知識檢索上已有進展,但多數仍專注於文本,未能有效整合各種數據。論文提出一個針對醫學多模態大型語言模型(M-LLMs)的綜合框架,涵蓋原則、應用、挑戰及未來研究方向,旨在促進M-LLMs的整合,提升數據驅動的醫療實踐,並激發對下一代醫療M-LLM系統的討論與創新。 PubMed DOI

假新聞檢測在資訊時代愈加重要,但現有方法多依賴小型語言模型,對專業新聞表現不佳。為了解決這個問題,我們提出FND-LLM框架,結合小型與大型語言模型,強化多模態假新聞檢測。框架包含文本特徵、視覺語義、視覺篡改、共同注意網絡、跨模態特徵及大型語言模型分支。實驗結果顯示,FND-LLM在Weibo、Gossipcop和Politifact數據集上的準確率分別提升0.7%、6.8%和1.3%。 PubMed DOI

這篇論文探討了多模態大型語言模型(MLLMs)的最新進展,特別是像GPT-4V這類結合語言處理與多模態任務的模型。作者強調了MLLMs的獨特能力,例如從圖像生成敘事及進行複雜推理,顯示出朝向人工通用智慧的潛力。論文提供了MLLMs的全面概述,包括架構、訓練策略和評估方法,並探討了增強其適應性的方法。此外,還討論了多模態幻覺等問題及未來研究方向,以提升MLLM的能力。 PubMed DOI

這項研究提出了一種新方法,利用多模態大型語言模型來融合紅外線和可見光影像,克服了傳統影像融合技術的缺點。主要包含兩個部分:首先是CLIP驅動的資訊注入,提取語意豐富的影像特徵;其次是CLIP引導的特徵融合,有效合併紅外線和可見光特徵,應對複雜場景挑戰。這種方法不需複雜網路架構,實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

最近在多模態大型語言模型(MLLMs)方面的研究顯示,擴展模型和數據對提升性能至關重要,但計算成本高。為此,我們提出了Uni-MoE,一種新型的統一MLLM,利用混合專家(MoE)架構來處理多種模態。Uni-MoE包含專門的編碼器,並透過稀疏的MoE架構實現高效訓練。我們還提出漸進式訓練策略,改善多專家的協作與泛化能力。實驗結果顯示,Uni-MoE在多模態數據集上表現優異,減少性能偏差。相關代碼可在 https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs 下載。 PubMed DOI

這篇論文提出MIFlu新方法,把流感數據和文字情境結合,並用大型語言模型來預測流感。結果顯示,這種做法預測準確率比傳統方法高出26.2%,證明結合專業知識和情境資訊對疾病預測很有幫助。 PubMed DOI

這項研究用多個大型語言模型(像是GPT-4、Claude 3.5等)來自動化產生EMS對話的電子病歷,結果比單一模型更準確,F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔,但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估,展現未來應用潛力。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

這篇論文提出 SeeUnsafe 架構,運用多模態大型語言模型自動化交通監視器事故偵測,不需人工後處理,還能互動式分析影片。系統可彈性調整分析任務,並有新指標 IMS 評估回應品質。實驗證明,SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI

這篇文章探討多模態大型語言模型(MLLMs)和訓練資料的互動關係,強調優質多元資料能提升模型表現,而先進模型也能幫助資料優化。文中分析資料與模型如何共同進步,並提供未來研究方向,協助推動MLLMs與資料的雙向發展。 PubMed DOI