A survey on advancements in image-text multimodal models: From general techniques to biomedical implementations.
影像-文字多模型模型進展的調查：從一般技術到生物醫學應用。 Comput Biol Med 2024-06-15

這篇論文討論了圖像-文本多模型的發展，強調了通用技術模型對特定領域模型的影響。從早期特徵空間到大型模型架構的演進，以及通用多模式技術對生物醫學領域的影響。論文分析了圖像-文本多模型的組件和挑戰，總結了在生物醫學中的應用，提出了解決方案。更多資訊請參考他們的GitHub頁面: https://github.com/i2vec/A-survey-on-image-text-multimodal-models。 PubMed DOI

AdversaFlow: Visual Red Teaming for Large Language Models with Multi-Level Adversarial Flow.
AdversaFlow：針對大型語言模型的多層對抗流可視化紅隊測試。 IEEE Trans Vis Comput Graph 2024-09-16

這篇論文介紹了AdversaFlow，一個視覺分析系統，旨在提升大型語言模型（LLMs）對抗攻擊的安全性。它探討了LLMs可能生成誤導性資訊及促進不道德活動的問題。傳統的AI漏洞識別方法過於依賴專業知識，限制了效果。 AdversaFlow透過人機協作和對抗性訓練來增強識別能力，並具備創新的視覺化功能，幫助專家理解對抗動態。論文中提供了定量評估和案例研究，顯示AdversaFlow能有效提升LLM的安全性，特別在社交媒體監管等應用上，能幫助檢測和減輕有害內容。 PubMed DOI

Multimodal Large Language Models in Health Care: Applications, Challenges, and Future Outlook.
醫療保健中的多模態大型語言模型：應用、挑戰與未來展望。 J Med Internet Res 2024-09-25

這篇論文探討多模態數據在醫學中的重要性，包括醫學影像、時間序列、音頻、文本、視頻及組學數據。雖然大型語言模型（LLMs）在醫療知識檢索上已有進展，但多數仍專注於文本，未能有效整合各種數據。論文提出一個針對醫學多模態大型語言模型（M-LLMs）的綜合框架，涵蓋原則、應用、挑戰及未來研究方向，旨在促進M-LLMs的整合，提升數據驅動的醫療實踐，並激發對下一代醫療M-LLM系統的討論與創新。 PubMed DOI

Adversarial Attacks on Large Language Models in Medicine.
醫學領域中對大型語言模型的對抗性攻擊。 ArXiv 2024-10-14

大型語言模型（LLMs）在醫療領域展現出改善診斷和病人照護的潛力，但對抗性攻擊使其脆弱，可能導致嚴重後果。本研究分析了LLMs在三個醫療任務中對兩種對抗性攻擊的易受攻擊性，發現無論是開源還是專有模型，都容易被操控。特定領域任務需更多對抗性數據來微調模型，雖然添加這些數據對整體性能影響不大，但改變了模型權重，顯示出檢測和減輕攻擊的潛力。這強調了在醫療應用中加強LLMs安全措施的必要性。 PubMed DOI

A survey on multimodal large language models.
關於多模態大型語言模型的調查。 Natl Sci Rev 2024-12-16

這篇論文探討了多模態大型語言模型（MLLMs）的最新進展，特別是像GPT-4V這類結合語言處理與多模態任務的模型。作者強調了MLLMs的獨特能力，例如從圖像生成敘事及進行複雜推理，顯示出朝向人工通用智慧的潛力。論文提供了MLLMs的全面概述，包括架構、訓練策略和評估方法，並探討了增強其適應性的方法。此外，還討論了多模態幻覺等問題及未來研究方向，以提升MLLM的能力。 PubMed DOI

MGFusion: a multimodal large language model-guided information perception for infrared and visible image fusion.
MGFusion：一種多模態大型語言模型引導的紅外與可見光影像融合信息感知。 Front Neurorobot 2025-01-07

這項研究提出了一種新方法，利用多模態大型語言模型來融合紅外線和可見光影像，克服了傳統影像融合技術的缺點。主要包含兩個部分：首先是CLIP驅動的資訊注入，提取語意豐富的影像特徵；其次是CLIP引導的特徵融合，有效合併紅外線和可見光特徵，應對複雜場景挑戰。這種方法不需複雜網路架構，實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

Medical large language models are vulnerable to data-poisoning attacks.
醫學大型語言模型易受數據中毒攻擊的影響。 Nat Med 2025-01-08

在醫療領域，大型語言模型（LLMs）的使用引發了對虛假醫療資訊擴散的擔憂。最近的研究顯示，即使是極小比例的錯誤資訊進入訓練數據，也可能使模型更易傳播醫療錯誤。受損模型在標準測試中的表現與正常模型相似，顯示出問題的嚴重性。為了解決這個問題，研究人員開發了一種利用生物醫學知識圖譜的篩選策略，成功捕捉91.9%的有害內容，強調了改善數據來源和透明度的重要性，以保障病人安全。 PubMed DOI

Prompt injection attacks on vision language models in oncology.
針對腫瘤學視覺語言模型的提示注入攻擊。 Nat Commun 2025-01-31

這項研究指出醫療領域的視覺語言模型（VLMs）存在重大安全漏洞，容易受到提示注入攻擊。這些攻擊能在不接觸內部參數的情況下，生成有害資訊。研究評估了四個先進的VLMs，發現它們皆有脆弱性，尤其是將微妙提示嵌入醫學影像中，可能導致難以察覺的有害輸出。這對VLMs在臨床上的安全使用構成風險，顯示在廣泛應用前需制定相應的防範措施。 PubMed DOI

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts.
Uni-MoE：使用專家混合技術擴展統一多模態 LLMs。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

最近在多模態大型語言模型（MLLMs）方面的研究顯示，擴展模型和數據對提升性能至關重要，但計算成本高。為此，我們提出了Uni-MoE，一種新型的統一MLLM，利用混合專家（MoE）架構來處理多種模態。Uni-MoE包含專門的編碼器，並透過稀疏的MoE架構實現高效訓練。我們還提出漸進式訓練策略，改善多專家的協作與泛化能力。實驗結果顯示，Uni-MoE在多模態數據集上表現優異，減少性能偏差。相關代碼可在 https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs 下載。 PubMed DOI

Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation.
朝向一個整體框架，用於多模態 LLM 在 3D 腦部 CT 放射報告生成中的應用。 Nat Commun 2025-03-06

多模態大型語言模型（MLLMs）正在改變醫療保健，特別是在自動化放射學報告生成（RRG）方面。雖然RRG在2D影像上已經取得成效，但3D醫學影像的應用仍待開發。為此，我們建立了3D-BrainCT數據集，包含18,885對文本與掃描影像，並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估（FORTE）來評估報告質量，結果顯示BrainGPT的FORTE F1分數為0.71，74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI

原始文章

站上相關主題文章列表