Distilling knowledge from multiple foundation models for zero-shot image classification.
從多個基礎模型提煉知識以進行零-shot影像分類。 PLoS One 2024-09-20

這篇論文提出了一個零樣本圖像分類框架，能在不需額外訓練數據的情況下識別新類別。透過基礎模型，增強了在缺乏特定訓練數據時的泛化能力。過程中使用ChatGPT和DALL-E根據文本提示生成未見類別的參考圖像，並用CLIP和DINO對測試圖像進行對齊，計算邏輯值。實驗結果顯示，這種方法在多個數據集上顯著提高了分類準確率，AUROC分數超過96%。框架的代碼已在GitHub上公開。 PubMed DOI

ChatDiff: A ChatGPT-based diffusion model for long-tailed classification.
ChatDiff: 基於 ChatGPT 的長尾分類擴散模型。 Neural Netw 2024-10-19

這篇論文介紹了ChatDiff，一種新穎的信息增強方法，旨在解決深度學習中的長尾數據問題。長尾分佈會導致某些類別數據稀缺，影響模型學習。ChatDiff透過從ChatGPT-3.5提取知識，增強這些類別的特徵，並利用條件擴散模型生成多樣化的正樣本，同時過濾掉負樣本以提升分類性能。實驗結果顯示，ChatDiff在多個長尾數據集上有效改善了代表性不足類別的分類效果。 PubMed DOI

CuTCP: Custom Text Generation-based Class-aware Prompt Tuning for visual-language models.
CuTCP: 基於自定義文本生成的類別感知提示調整於視覺-語言模型。 Sci Rep 2025-01-21

視覺語言模型（VLMs）在跨模態推理上表現優異，因為它們能整合視覺與語言特徵。最近的進展集中在透過提示學習進行微調，以適應不同任務。TCP方法雖然能增強VLM的泛化能力，但固定的文本模板可能無法捕捉細微的類別差異。為了解決這個問題，我們提出了自定義文本生成的類別感知提示調整（CuTCP），利用大型語言模型生成更具描述性的提示，提升模型對已知與未見類別的區分能力。實驗顯示，CuTCP在新類別上改善了0.74%，並在11個多樣化的圖像數據集上整體提升了0.44%。這證明CuTCP有效增強了模型的適應性與泛化能力，特別是在細粒度分類任務中。 PubMed DOI

Boosting adversarial transferability in vision-language models via multimodal feature heterogeneity.
透過多模態特徵異質性提升視覺-語言模型的對抗轉移性。 Sci Rep 2025-03-02

提出的多模態特徵異質攻擊（MFHA）框架，旨在提升醫學影像中視覺-語言預訓練（VLP）模型的對抗攻擊效果與可轉移性。MFHA利用三元組對比學習的特徵異質化方法，結合數據增強與對比學習技術，強化對抗能力。為了增強可轉移性，框架採用跨模態變異聚合，透過文本引導影像攻擊來擾動特徵。實驗結果顯示，MFHA的可轉移攻擊能力平均提升16.05%，在對抗MiniGPT4和LLaVA等大型語言模型時表現優異。該框架已在GitHub上公開，供大家進一步探索。 PubMed DOI

NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning.
NavCoT: 透過學習解耦推理提升基於大型語言模型的視覺與語言導航。 IEEE Trans Pattern Anal Mach Intell 2025-03-25

這篇論文介紹了一種新策略，稱為導航思維鏈（NavCoT），旨在提升大型語言模型（LLMs）在視覺與語言導航（VLN）中的表現。由於訓練數據與VLN任務之間的差距，LLMs常面臨挑戰。NavCoT透過領域內訓練，幫助LLM進行自我引導的導航決策，包含三個步驟：想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示，NavCoT在多個VLN基準測試中表現優於傳統方法，並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

Dual Adapter Tuning of Vision-Language Models Using Large Language Models.
利用大型語言模型進行視覺-語言模型的雙適配器調校 Int J Comput Intell Syst 2025-05-15

這篇論文提出一種全新的高效轉移學習方法，專門用在視覺-語言模型。它結合了兩種特徵調整器，並利用大型語言模型自動產生更精細、具情境的提示，取代傳統模板化文字。這讓模型能更準確分辨不同類別，在11個資料集上都拿下最佳成績。程式碼和提示內容可在 GitHub 查詢。 PubMed DOI

LLaFS++: Few-Shot Image Segmentation With Large Language Models.
LLaFS++：結合大型語言模型的少量樣本影像分割 IEEE Trans Pattern Anal Mach Intell 2025-05-26

這篇論文提出LLaFS++新架構，首次用大型語言模型（LLMs）來提升少量樣本分割（FSS）效果。透過LLMs的知識，LLaFS++能克服標註資料少的問題，分割表現更好。架構有多項創新設計，像是直接輸出多邊形、區域-屬性表、多模態引導、課程學習結合偽樣本合成，以及新推論方法減少過度分割。實驗結果在多個基準上都拿下最佳表現，展現LLMs在少量樣本視覺任務的潛力。 PubMed DOI

Rethinking VLMs and LLMs for image classification.
重新思考 VLMs 與 LLMs 在影像分類上的應用 Sci Rep 2025-06-04

作者發現，單純的VLMs在影像分類上表現比結合LLMs還好，但LLMs在需要推理或外部知識時有優勢。為此，他們提出一個輕量級的LLM router，能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練，效果不輸GPT-4V等先進系統，且成本更低。 PubMed DOI

Fine-Grained Entity Recognition via Large Language Models.
透過大型語言模型進行細粒度實體辨識 IEEE Trans Neural Netw Learn Syst 2025-06-05

細粒度實體辨識很難做，因為缺乏標註資料。這篇論文提出 FGER-GPT，利用 GPT 等大型語言模型，搭配階層式、多步驟推理，不用標註資料也能辨識細粒度實體。這方法能減少 LLM 產生幻覺的問題，在標準資料集上表現也很好，特別適合資源有限的實際應用。 PubMed DOI

New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration.
細緻組合型指稱表達理解之新資料集與方法：透過專家-MLLM協作 IEEE Trans Pattern Anal Mach Intell 2025-06-16

這篇論文提出一個能調整題目難度的REC資料集，並設計具挑戰性的負樣本，讓多模態模型測試更精確。作者提出兩種結合專家模型和多模態大型語言模型的方法：一是簡單題交給輕量模型，難題再給MLLM處理，提升效率；二是專家模型先篩選物件區域，再由MLLM選答案。這兩種合作方式都讓REC任務表現大幅進步，證明專業和通用模型結合很有效。 PubMed DOI

原始文章

站上相關主題文章列表