原始文章

作者發現,單純的VLMs在影像分類上表現比結合LLMs還好,但LLMs在需要推理或外部知識時有優勢。為此,他們提出一個輕量級的LLM router,能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練,效果不輸GPT-4V等先進系統,且成本更低。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在智能視覺化系統中有很大潛力,尤其在專業應用上,但整合時面臨挑戰,包括領域特定問題、視覺化過程及用戶互動。為解決這些問題,我們提出了一個框架,利用微調的LLMs來改善視覺互動。 在教育領域,智能視覺化系統能支持初學者的自我調節學習。我們介紹了Tailor-Mind,一個互動式視覺化系統,幫助AI初學者進行自我調節學習。研究顯示,Tailor-Mind能提供個性化建議,增強學習體驗,驗證了我們框架的有效性。 PubMed DOI

這篇論文探討了多模態大型語言模型(MLLMs)的最新進展,特別是像GPT-4V這類結合語言處理與多模態任務的模型。作者強調了MLLMs的獨特能力,例如從圖像生成敘事及進行複雜推理,顯示出朝向人工通用智慧的潛力。論文提供了MLLMs的全面概述,包括架構、訓練策略和評估方法,並探討了增強其適應性的方法。此外,還討論了多模態幻覺等問題及未來研究方向,以提升MLLM的能力。 PubMed DOI

多模態大型語言模型(MLLMs)正在快速進步,特別是大型視覺-語言模型(LVLMs),能同時處理圖像和文本。這些模型將圖像拆分成標記,並與文本整合,但在複雜推理任務中難以解釋。為了解決這個問題,研究者使用Grad-CAM分析圖像和文本的互動,發現信息流在早期層集中,後期則分散。基於此,他們提出Simignore技術,透過評估圖像和文本嵌入的相似性,忽略不相關的標記,提升推理能力。實驗顯示Simignore在複雜任務中表現優異,增強了MLLM的可解釋性,並為未來研究奠定基礎。源代碼可在 https://github.com/FanshuoZeng/Simignore 獲得。 PubMed DOI

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 PubMed DOI

這篇論文評估了兩個大型語言模型(LLMs)的視覺素養,分別是 OpenAI 的 GPT 和 Google 的 Gemini。研究目的是建立它們在視覺化能力上的基準。雖然這些模型在生成描述和圖表設計上有潛力,但它們的視覺化評估能力仍未被充分檢視。透過修改過的 53 項視覺素養評估測試(VLAT),結果顯示這些 LLMs 的視覺素養水平低於普通公眾,且在回答問題時多依賴先前知識,而非視覺化呈現的信息。 PubMed DOI

最近通用視覺-語言模型(VLMs)在多模態任務上展現出強大的推理能力,但在物體理解和定位上仍有挑戰。現有模型常將文本與圖像標記對齊,可能導致嵌入不佳及背景特徵干擾,且對新視覺概念的泛化能力不足。為了解決這些問題,我們提出一種新方法,透過上下文中的視覺物體向量來提示大型語言模型,提升物體級推理的精確度,並加快訓練速度。我們的實驗顯示,這種方法在物體分類和標題生成上表現優異,並在複雜場景中具備良好的泛化能力。 PubMed DOI

這篇論文介紹了一種新策略,稱為導航思維鏈(NavCoT),旨在提升大型語言模型(LLMs)在視覺與語言導航(VLN)中的表現。由於訓練數據與VLN任務之間的差距,LLMs常面臨挑戰。NavCoT透過領域內訓練,幫助LLM進行自我引導的導航決策,包含三個步驟:想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示,NavCoT在多個VLN基準測試中表現優於傳統方法,並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

這篇論文提出一種全新的高效轉移學習方法,專門用在視覺-語言模型。它結合了兩種特徵調整器,並利用大型語言模型自動產生更精細、具情境的提示,取代傳統模板化文字。這讓模型能更準確分辨不同類別,在11個資料集上都拿下最佳成績。程式碼和提示內容可在 GitHub 查詢。 PubMed DOI

LLMs 只靠語言就能學到像人類一樣的抽象概念,但在感官和動作相關的概念上,跟人類還是有落差。加入視覺等多感官訓練後,LLMs 在這些領域的表現會更接近人類。這說明多感官經驗對 LLMs 形成完整人類概念很重要。 PubMed DOI

這篇論文提出Argus,一種結合2D多視角影像、相機位置和3D點雲的新3D多模態架構。Argus融合2D細節和3D特徵,彌補單靠點雲資訊不足的問題,讓大型語言模型在3D場景理解上更精準。實驗證明,Argus在多項3D任務表現都比現有方法更優秀。 PubMed DOI