原始文章

這篇論文提出 M2ERD 方法,結合大、小型語言模型優點來偵測多模態緊急謠言,並設計新融合網路整合文字和圖片資訊。實驗證明 M2ERD 在多個資料集的準確率和 F1-score 都優於現有方法,程式碼和資料已公開在 GitHub。 PubMed DOI


站上相關主題文章列表

這項研究提出了一種新方法,利用多模態大型語言模型來融合紅外線和可見光影像,克服了傳統影像融合技術的缺點。主要包含兩個部分:首先是CLIP驅動的資訊注入,提取語意豐富的影像特徵;其次是CLIP引導的特徵融合,有效合併紅外線和可見光特徵,應對複雜場景挑戰。這種方法不需複雜網路架構,實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

最近在多模態大型語言模型(MLLMs)方面的研究顯示,擴展模型和數據對提升性能至關重要,但計算成本高。為此,我們提出了Uni-MoE,一種新型的統一MLLM,利用混合專家(MoE)架構來處理多種模態。Uni-MoE包含專門的編碼器,並透過稀疏的MoE架構實現高效訓練。我們還提出漸進式訓練策略,改善多專家的協作與泛化能力。實驗結果顯示,Uni-MoE在多模態數據集上表現優異,減少性能偏差。相關代碼可在 https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs 下載。 PubMed DOI

這篇文章探討了多模態推薦系統的最新進展,這些系統結合文本、圖像和用戶對話等多種數據。文章指出兩大挑戰:用戶需求的複雜性和高品質數據集的不足,尤其在互動場景中。提出的解決方案結合多模態技術與大型語言模型(LLMs),提升用戶互動和推薦準確性。關鍵技術包括交叉注意力機制、多圖神經網絡和自我反思機制。實驗結果顯示,這些模型在準確率和召回率上超越現有方法,並在視覺問答任務中表現優異,顯示出其實際應用潛力。 PubMed DOI

這篇論文提出MIFlu新方法,把流感數據和文字情境結合,並用大型語言模型來預測流感。結果顯示,這種做法預測準確率比傳統方法高出26.2%,證明結合專業知識和情境資訊對疾病預測很有幫助。 PubMed DOI

這項研究用多個大型語言模型(像是GPT-4、Claude 3.5等)來自動化產生EMS對話的電子病歷,結果比單一模型更準確,F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔,但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估,展現未來應用潛力。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

這篇論文提出 SeeUnsafe 架構,運用多模態大型語言模型自動化交通監視器事故偵測,不需人工後處理,還能互動式分析影片。系統可彈性調整分析任務,並有新指標 IMS 評估回應品質。實驗證明,SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI

這篇文章探討多模態大型語言模型(MLLMs)和訓練資料的互動關係,強調優質多元資料能提升模型表現,而先進模型也能幫助資料優化。文中分析資料與模型如何共同進步,並提供未來研究方向,協助推動MLLMs與資料的雙向發展。 PubMed DOI

這篇論文提出一個能調整題目難度的REC資料集,並設計具挑戰性的負樣本,讓多模態模型測試更精確。作者提出兩種結合專家模型和多模態大型語言模型的方法:一是簡單題交給輕量模型,難題再給MLLM處理,提升效率;二是專家模型先篩選物件區域,再由MLLM選答案。這兩種合作方式都讓REC任務表現大幅進步,證明專業和通用模型結合很有效。 PubMed DOI

這篇研究針對社群媒體假新聞氾濫,提出多階段轉移學習架構,結合RoBERTa和不同詞嵌入技術,並改良微調方式。實驗顯示,這方法在資料少時準確率提升至少3.9%,而且結果更容易解釋,優於現有模型。 PubMed DOI