原始文章

提出的多模態特徵異質攻擊(MFHA)框架,旨在提升醫學影像中視覺-語言預訓練(VLP)模型的對抗攻擊效果與可轉移性。MFHA利用三元組對比學習的特徵異質化方法,結合數據增強與對比學習技術,強化對抗能力。為了增強可轉移性,框架採用跨模態變異聚合,透過文本引導影像攻擊來擾動特徵。實驗結果顯示,MFHA的可轉移攻擊能力平均提升16.05%,在對抗MiniGPT4和LLaVA等大型語言模型時表現優異。該框架已在GitHub上公開,供大家進一步探索。 PubMed DOI


站上相關主題文章列表

這篇論文討論了圖像-文本多模型的發展,強調了通用技術模型對特定領域模型的影響。從早期特徵空間到大型模型架構的演進,以及通用多模式技術對生物醫學領域的影響。論文分析了圖像-文本多模型的組件和挑戰,總結了在生物醫學中的應用,提出了解決方案。更多資訊請參考他們的GitHub頁面: https://github.com/i2vec/A-survey-on-image-text-multimodal-models。 PubMed DOI

這篇論文介紹了AdversaFlow,一個視覺分析系統,旨在提升大型語言模型(LLMs)對抗攻擊的安全性。它探討了LLMs可能生成誤導性資訊及促進不道德活動的問題。傳統的AI漏洞識別方法過於依賴專業知識,限制了效果。 AdversaFlow透過人機協作和對抗性訓練來增強識別能力,並具備創新的視覺化功能,幫助專家理解對抗動態。論文中提供了定量評估和案例研究,顯示AdversaFlow能有效提升LLM的安全性,特別在社交媒體監管等應用上,能幫助檢測和減輕有害內容。 PubMed DOI

這篇論文探討多模態數據在醫學中的重要性,包括醫學影像、時間序列、音頻、文本、視頻及組學數據。雖然大型語言模型(LLMs)在醫療知識檢索上已有進展,但多數仍專注於文本,未能有效整合各種數據。論文提出一個針對醫學多模態大型語言模型(M-LLMs)的綜合框架,涵蓋原則、應用、挑戰及未來研究方向,旨在促進M-LLMs的整合,提升數據驅動的醫療實踐,並激發對下一代醫療M-LLM系統的討論與創新。 PubMed DOI

大型語言模型(LLMs)在醫療領域展現出改善診斷和病人照護的潛力,但對抗性攻擊使其脆弱,可能導致嚴重後果。本研究分析了LLMs在三個醫療任務中對兩種對抗性攻擊的易受攻擊性,發現無論是開源還是專有模型,都容易被操控。特定領域任務需更多對抗性數據來微調模型,雖然添加這些數據對整體性能影響不大,但改變了模型權重,顯示出檢測和減輕攻擊的潛力。這強調了在醫療應用中加強LLMs安全措施的必要性。 PubMed DOI

這篇論文探討了多模態大型語言模型(MLLMs)的最新進展,特別是像GPT-4V這類結合語言處理與多模態任務的模型。作者強調了MLLMs的獨特能力,例如從圖像生成敘事及進行複雜推理,顯示出朝向人工通用智慧的潛力。論文提供了MLLMs的全面概述,包括架構、訓練策略和評估方法,並探討了增強其適應性的方法。此外,還討論了多模態幻覺等問題及未來研究方向,以提升MLLM的能力。 PubMed DOI

這項研究提出了一種新方法,利用多模態大型語言模型來融合紅外線和可見光影像,克服了傳統影像融合技術的缺點。主要包含兩個部分:首先是CLIP驅動的資訊注入,提取語意豐富的影像特徵;其次是CLIP引導的特徵融合,有效合併紅外線和可見光特徵,應對複雜場景挑戰。這種方法不需複雜網路架構,實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

在醫療領域,大型語言模型(LLMs)的使用引發了對虛假醫療資訊擴散的擔憂。最近的研究顯示,即使是極小比例的錯誤資訊進入訓練數據,也可能使模型更易傳播醫療錯誤。受損模型在標準測試中的表現與正常模型相似,顯示出問題的嚴重性。為了解決這個問題,研究人員開發了一種利用生物醫學知識圖譜的篩選策略,成功捕捉91.9%的有害內容,強調了改善數據來源和透明度的重要性,以保障病人安全。 PubMed DOI

這項研究指出醫療領域的視覺語言模型(VLMs)存在重大安全漏洞,容易受到提示注入攻擊。這些攻擊能在不接觸內部參數的情況下,生成有害資訊。研究評估了四個先進的VLMs,發現它們皆有脆弱性,尤其是將微妙提示嵌入醫學影像中,可能導致難以察覺的有害輸出。這對VLMs在臨床上的安全使用構成風險,顯示在廣泛應用前需制定相應的防範措施。 PubMed DOI

最近在多模態大型語言模型(MLLMs)方面的研究顯示,擴展模型和數據對提升性能至關重要,但計算成本高。為此,我們提出了Uni-MoE,一種新型的統一MLLM,利用混合專家(MoE)架構來處理多種模態。Uni-MoE包含專門的編碼器,並透過稀疏的MoE架構實現高效訓練。我們還提出漸進式訓練策略,改善多專家的協作與泛化能力。實驗結果顯示,Uni-MoE在多模態數據集上表現優異,減少性能偏差。相關代碼可在 https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs 下載。 PubMed DOI

多模態大型語言模型(MLLMs)正在改變醫療保健,特別是在自動化放射學報告生成(RRG)方面。雖然RRG在2D影像上已經取得成效,但3D醫學影像的應用仍待開發。為此,我們建立了3D-BrainCT數據集,包含18,885對文本與掃描影像,並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估(FORTE)來評估報告質量,結果顯示BrainGPT的FORTE F1分數為0.71,74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI