原始文章

提出的多模態特徵異質攻擊(MFHA)框架,旨在提升醫學影像中視覺-語言預訓練(VLP)模型的對抗攻擊效果與可轉移性。MFHA利用三元組對比學習的特徵異質化方法,結合數據增強與對比學習技術,強化對抗能力。為了增強可轉移性,框架採用跨模態變異聚合,透過文本引導影像攻擊來擾動特徵。實驗結果顯示,MFHA的可轉移攻擊能力平均提升16.05%,在對抗MiniGPT4和LLaVA等大型語言模型時表現優異。該框架已在GitHub上公開,供大家進一步探索。 PubMed DOI


站上相關主題文章列表

這項研究提出了一種新方法,利用多模態大型語言模型來融合紅外線和可見光影像,克服了傳統影像融合技術的缺點。主要包含兩個部分:首先是CLIP驅動的資訊注入,提取語意豐富的影像特徵;其次是CLIP引導的特徵融合,有效合併紅外線和可見光特徵,應對複雜場景挑戰。這種方法不需複雜網路架構,實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

在醫療領域,大型語言模型(LLMs)的使用引發了對虛假醫療資訊擴散的擔憂。最近的研究顯示,即使是極小比例的錯誤資訊進入訓練數據,也可能使模型更易傳播醫療錯誤。受損模型在標準測試中的表現與正常模型相似,顯示出問題的嚴重性。為了解決這個問題,研究人員開發了一種利用生物醫學知識圖譜的篩選策略,成功捕捉91.9%的有害內容,強調了改善數據來源和透明度的重要性,以保障病人安全。 PubMed DOI

這項研究指出醫療領域的視覺語言模型(VLMs)存在重大安全漏洞,容易受到提示注入攻擊。這些攻擊能在不接觸內部參數的情況下,生成有害資訊。研究評估了四個先進的VLMs,發現它們皆有脆弱性,尤其是將微妙提示嵌入醫學影像中,可能導致難以察覺的有害輸出。這對VLMs在臨床上的安全使用構成風險,顯示在廣泛應用前需制定相應的防範措施。 PubMed DOI

最近在多模態大型語言模型(MLLMs)方面的研究顯示,擴展模型和數據對提升性能至關重要,但計算成本高。為此,我們提出了Uni-MoE,一種新型的統一MLLM,利用混合專家(MoE)架構來處理多種模態。Uni-MoE包含專門的編碼器,並透過稀疏的MoE架構實現高效訓練。我們還提出漸進式訓練策略,改善多專家的協作與泛化能力。實驗結果顯示,Uni-MoE在多模態數據集上表現優異,減少性能偏差。相關代碼可在 https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs 下載。 PubMed DOI

多模態大型語言模型(MLLMs)正在改變醫療保健,特別是在自動化放射學報告生成(RRG)方面。雖然RRG在2D影像上已經取得成效,但3D醫學影像的應用仍待開發。為此,我們建立了3D-BrainCT數據集,包含18,885對文本與掃描影像,並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估(FORTE)來評估報告質量,結果顯示BrainGPT的FORTE F1分數為0.71,74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI

針對鼻咽癌的精確診斷工具開發至關重要,多模態基礎模型能整合多種數據,提升臨床支持,但面臨挑戰。首先,針對鼻咽癌的大型視覺-語言數據集稀缺;其次,現有技術難以捕捉複雜任務的層次特徵;最後,基礎模型的多模態整合能力不足。我們提出的層次特徵融合課程學習方法,透過視覺知識學習、粗粒度對齊及細粒度融合,顯示在診斷、報告生成等任務上優於以往模型。 PubMed DOI

這篇論文提出一種全新的高效轉移學習方法,專門用在視覺-語言模型。它結合了兩種特徵調整器,並利用大型語言模型自動產生更精細、具情境的提示,取代傳統模板化文字。這讓模型能更準確分辨不同類別,在11個資料集上都拿下最佳成績。程式碼和提示內容可在 GitHub 查詢。 PubMed DOI

MINT 是一種新架構,可以把多模態生醫模型(結合文字和影像)的知識,轉移到只用文字或影像的單模態大型語言模型。它用 Odds Ratio Preference Optimization 這種偏好最佳化方法,讓單模態模型也能學到專家的決策方式。實驗證明,MINT 在罕見疾病預測和組織分類任務上,比傳統方法更有效,能提升單模態模型的專業表現。 PubMed

這篇論文提出 AttrDD,一種專為視覺-語言模型設計的階層式少量樣本微調框架。它先用微調後的模型縮小到最容易混淆的幾個類別,再用大型語言模型產生屬性描述來細分。這種兩階段、以屬性為主的方法,搭配輕量級 adapter,不只提升微調效率,在多項基準測試上也優於現有方法。 PubMed DOI

這篇論文提出CAT+方法,專為提升多模態大型語言模型在影音問答上的表現,解決理解模糊和幻覺問題。CAT+用SQM強化理解,AS-DPO減少模糊回答,並設計AVHbench評測模型幻覺現象。實驗證明CAT+比現有方法更準確可靠。 PubMed DOI