Building an Open-Vocabulary Video CLIP Model With Better Architectures, Optimization and Data.
建立一個具有更好架構、優化和數據的開放詞彙視頻 CLIP 模型。 IEEE Trans Pattern Anal Mach Intell 2024-01-23

這篇論文介紹了Open-VCLIP++，是一個將對比式語言-影像預訓練（CLIP）框架改造成零樣本視頻辨識工具。透過調整CLIP以捕捉視頻的時空關係，並運用插值權重優化等技術，這個框架在動作辨識資料集上取得了領先的成果。在視頻-文本檢索任務中表現優異，且只需極少微調數據。程式碼可於GitHub專案https://github.com/wengzejia1/Open-VCLIP 找到。 PubMed DOI

Correctable Landmark Discovery Via Large Models for Vision-Language Navigation.
透過大型模型進行視覺語言導航的可糾正地標發現。 IEEE Trans Pattern Anal Mach Intell 2024-05-31

視覺語言導航（VLN）是指代理根據語言指示到達目標位置。現有的VLN代理在新場景中難以準確對齊地標。CONSOLE提出了一種新方法，利用ChatGPT和CLIP等大型模型解決地標發現問題，並透過評分模組糾正噪音，提高準確性。這種方法在VLN基準測試中表現優於基準線，實現了R2R和R4R的最新成果。 PubMed DOI

OphGLM: An ophthalmology large language-and-vision assistant.
OphGLM：一個眼科大型語言與視覺助手。 Artif Intell Med 2024-11-03

這篇論文介紹了OphGLM，一個創新的眼科助手，結合大型語言模型（LLMs）與視覺理解，提升眼科疾病的早期篩檢和診斷。傳統診斷方法在互動性上有其限制，因此需要更互動的解決方案。OphGLM整合了圖像和文本編碼器，並創建了新的中文數據集FundusTuning-CN，包含眼底圖像的指導性和對話性數據。OphGLM在眼底疾病分類上表現優於現有模型，並能提升眼科臨床應用。相關數據集、代碼和模型將公開，供後續研究使用。 PubMed DOI

In-context learning enables multimodal large language models to classify cancer pathology images.
上下文學習使多模態大型語言模型能夠分類癌症病理影像。 Nat Commun 2024-11-21

這項研究探討了使用具視覺能力的GPT-4V進行醫學影像分類，特別是癌症組織病理學。傳統方法需大量標註數據和計算資源，而上下文學習則能從提示中學習，無需更新參數，這在醫學影像領域尚未普遍應用。研究評估了GPT-4V在結直腸癌組織亞型分類、結腸息肉亞型分類及淋巴結切片乳腺腫瘤檢測的表現，結果顯示其表現可與專門神經網絡媲美，甚至在樣本數量有限時更佳。這顯示通用AI模型在醫療影像分析中的潛力，特別對於缺乏技術專業知識的醫療人員。 PubMed DOI

CLIP-Llama: A New Approach for Scene Text Recognition with a Pre-Trained Vision-Language Model and a Pre-Trained Language Model.
CLIP-Llama：一種基於預訓練視覺語言模型和預訓練語言模型的場景文字識別新方法。 Sensors (Basel) 2024-11-27

這項研究探討了場景文字識別（STR），對於影像檢索和智慧交通系統等人工智慧應用非常重要。研究強調預訓練的視覺-語言模型CLIP在識別影像中的文字方面的有效性。提出了一種新方法，結合CLIP的影像和文字編碼器與Llama2-7B語言模型，分為視覺和跨模態兩個分支，透過雙重預測和細化解碼提高準確性。實驗結果顯示，CLIP-Llama模型在11個STR基準測試中表現優異，為未來研究奠定基礎。 PubMed DOI

A survey on multimodal large language models.
關於多模態大型語言模型的調查。 Natl Sci Rev 2024-12-16

這篇論文探討了多模態大型語言模型（MLLMs）的最新進展，特別是像GPT-4V這類結合語言處理與多模態任務的模型。作者強調了MLLMs的獨特能力，例如從圖像生成敘事及進行複雜推理，顯示出朝向人工通用智慧的潛力。論文提供了MLLMs的全面概述，包括架構、訓練策略和評估方法，並探討了增強其適應性的方法。此外，還討論了多模態幻覺等問題及未來研究方向，以提升MLLM的能力。 PubMed DOI

MGFusion: a multimodal large language model-guided information perception for infrared and visible image fusion.
MGFusion：一種多模態大型語言模型引導的紅外與可見光影像融合信息感知。 Front Neurorobot 2025-01-07

這項研究提出了一種新方法，利用多模態大型語言模型來融合紅外線和可見光影像，克服了傳統影像融合技術的缺點。主要包含兩個部分：首先是CLIP驅動的資訊注入，提取語意豐富的影像特徵；其次是CLIP引導的特徵融合，有效合併紅外線和可見光特徵，應對複雜場景挑戰。這種方法不需複雜網路架構，實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

Simignore: Exploring and enhancing multimodal large model complex reasoning via similarity computation.
Simignore：透過相似性計算探索與增強多模態大型模型的複雜推理。 Neural Netw 2025-01-09

多模態大型語言模型（MLLMs）正在快速進步，特別是大型視覺-語言模型（LVLMs），能同時處理圖像和文本。這些模型將圖像拆分成標記，並與文本整合，但在複雜推理任務中難以解釋。為了解決這個問題，研究者使用Grad-CAM分析圖像和文本的互動，發現信息流在早期層集中，後期則分散。基於此，他們提出Simignore技術，透過評估圖像和文本嵌入的相似性，忽略不相關的標記，提升推理能力。實驗顯示Simignore在複雜任務中表現優異，增強了MLLM的可解釋性，並為未來研究奠定基礎。源代碼可在 https://github.com/FanshuoZeng/Simignore 獲得。 PubMed DOI

Enhancing Visual Reasoning with LLM-Powered Knowledge Graphs for Visual Question Localized-Answering in Robotic Surgery.
利用 LLM 驅動的知識圖譜增強視覺推理，以實現機器人手術中的視覺問題定位回答。 IEEE J Biomed Health Inform 2025-03-03

針對外科手術中的視覺問題定位（Surgical-VQLA）研究，解決了醫學生和初級醫生在獲取手術資訊的挑戰。提出的「利用大型語言模型驅動的知識圖譜增強視覺推理」（EnVR-LPKG）框架，透過大型語言模型生成的知識圖譜，提升對手術器械、器官及程序的理解。框架主要包含： 1. **細粒度知識提取器（FKE）**：從知識圖譜提取資訊，並用對比學習對齊手術影像。 2. **基於多重注意力的手術器械增強器（MSIE）**：整合視覺與文本特徵，增強手術器械的表徵。該方法在EndoVis-17-VQLA和EndoVis-18-VQLA數據集上表現優於現有技術，研究團隊計劃釋出程式碼以促進進一步研究。 PubMed DOI

NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning.
NavCoT: 透過學習解耦推理提升基於大型語言模型的視覺與語言導航。 IEEE Trans Pattern Anal Mach Intell 2025-03-25

這篇論文介紹了一種新策略，稱為導航思維鏈（NavCoT），旨在提升大型語言模型（LLMs）在視覺與語言導航（VLN）中的表現。由於訓練數據與VLN任務之間的差距，LLMs常面臨挑戰。NavCoT透過領域內訓練，幫助LLM進行自我引導的導航決策，包含三個步驟：想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示，NavCoT在多個VLN基準測試中表現優於傳統方法，並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

原始文章

站上相關主題文章列表