原始文章

最近通用視覺-語言模型(VLMs)在多模態任務上展現出強大的推理能力,但在物體理解和定位上仍有挑戰。現有模型常將文本與圖像標記對齊,可能導致嵌入不佳及背景特徵干擾,且對新視覺概念的泛化能力不足。為了解決這些問題,我們提出一種新方法,透過上下文中的視覺物體向量來提示大型語言模型,提升物體級推理的精確度,並加快訓練速度。我們的實驗顯示,這種方法在物體分類和標題生成上表現優異,並在複雜場景中具備良好的泛化能力。 PubMed DOI


站上相關主題文章列表

這篇論文介紹了Open-VCLIP++,是一個將對比式語言-影像預訓練(CLIP)框架改造成零樣本視頻辨識工具。透過調整CLIP以捕捉視頻的時空關係,並運用插值權重優化等技術,這個框架在動作辨識資料集上取得了領先的成果。在視頻-文本檢索任務中表現優異,且只需極少微調數據。程式碼可於GitHub專案https://github.com/wengzejia1/Open-VCLIP 找到。 PubMed DOI

視覺語言導航(VLN)是指代理根據語言指示到達目標位置。現有的VLN代理在新場景中難以準確對齊地標。CONSOLE提出了一種新方法,利用ChatGPT和CLIP等大型模型解決地標發現問題,並透過評分模組糾正噪音,提高準確性。這種方法在VLN基準測試中表現優於基準線,實現了R2R和R4R的最新成果。 PubMed DOI

這篇論文介紹了OphGLM,一個創新的眼科助手,結合大型語言模型(LLMs)與視覺理解,提升眼科疾病的早期篩檢和診斷。傳統診斷方法在互動性上有其限制,因此需要更互動的解決方案。OphGLM整合了圖像和文本編碼器,並創建了新的中文數據集FundusTuning-CN,包含眼底圖像的指導性和對話性數據。OphGLM在眼底疾病分類上表現優於現有模型,並能提升眼科臨床應用。相關數據集、代碼和模型將公開,供後續研究使用。 PubMed DOI

這項研究探討了使用具視覺能力的GPT-4V進行醫學影像分類,特別是癌症組織病理學。傳統方法需大量標註數據和計算資源,而上下文學習則能從提示中學習,無需更新參數,這在醫學影像領域尚未普遍應用。研究評估了GPT-4V在結直腸癌組織亞型分類、結腸息肉亞型分類及淋巴結切片乳腺腫瘤檢測的表現,結果顯示其表現可與專門神經網絡媲美,甚至在樣本數量有限時更佳。這顯示通用AI模型在醫療影像分析中的潛力,特別對於缺乏技術專業知識的醫療人員。 PubMed DOI

這項研究探討了場景文字識別(STR),對於影像檢索和智慧交通系統等人工智慧應用非常重要。研究強調預訓練的視覺-語言模型CLIP在識別影像中的文字方面的有效性。提出了一種新方法,結合CLIP的影像和文字編碼器與Llama2-7B語言模型,分為視覺和跨模態兩個分支,透過雙重預測和細化解碼提高準確性。實驗結果顯示,CLIP-Llama模型在11個STR基準測試中表現優異,為未來研究奠定基礎。 PubMed DOI

這篇論文探討了多模態大型語言模型(MLLMs)的最新進展,特別是像GPT-4V這類結合語言處理與多模態任務的模型。作者強調了MLLMs的獨特能力,例如從圖像生成敘事及進行複雜推理,顯示出朝向人工通用智慧的潛力。論文提供了MLLMs的全面概述,包括架構、訓練策略和評估方法,並探討了增強其適應性的方法。此外,還討論了多模態幻覺等問題及未來研究方向,以提升MLLM的能力。 PubMed DOI

這項研究提出了一種新方法,利用多模態大型語言模型來融合紅外線和可見光影像,克服了傳統影像融合技術的缺點。主要包含兩個部分:首先是CLIP驅動的資訊注入,提取語意豐富的影像特徵;其次是CLIP引導的特徵融合,有效合併紅外線和可見光特徵,應對複雜場景挑戰。這種方法不需複雜網路架構,實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

多模態大型語言模型(MLLMs)正在快速進步,特別是大型視覺-語言模型(LVLMs),能同時處理圖像和文本。這些模型將圖像拆分成標記,並與文本整合,但在複雜推理任務中難以解釋。為了解決這個問題,研究者使用Grad-CAM分析圖像和文本的互動,發現信息流在早期層集中,後期則分散。基於此,他們提出Simignore技術,透過評估圖像和文本嵌入的相似性,忽略不相關的標記,提升推理能力。實驗顯示Simignore在複雜任務中表現優異,增強了MLLM的可解釋性,並為未來研究奠定基礎。源代碼可在 https://github.com/FanshuoZeng/Simignore 獲得。 PubMed DOI

針對外科手術中的視覺問題定位(Surgical-VQLA)研究,解決了醫學生和初級醫生在獲取手術資訊的挑戰。提出的「利用大型語言模型驅動的知識圖譜增強視覺推理」(EnVR-LPKG)框架,透過大型語言模型生成的知識圖譜,提升對手術器械、器官及程序的理解。 框架主要包含: 1. **細粒度知識提取器(FKE)**:從知識圖譜提取資訊,並用對比學習對齊手術影像。 2. **基於多重注意力的手術器械增強器(MSIE)**:整合視覺與文本特徵,增強手術器械的表徵。 該方法在EndoVis-17-VQLA和EndoVis-18-VQLA數據集上表現優於現有技術,研究團隊計劃釋出程式碼以促進進一步研究。 PubMed DOI

這篇論文介紹了一種新策略,稱為導航思維鏈(NavCoT),旨在提升大型語言模型(LLMs)在視覺與語言導航(VLN)中的表現。由於訓練數據與VLN任務之間的差距,LLMs常面臨挑戰。NavCoT透過領域內訓練,幫助LLM進行自我引導的導航決策,包含三個步驟:想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示,NavCoT在多個VLN基準測試中表現優於傳統方法,並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI