原始文章

這篇論文提出 AttrDD,一種專為視覺-語言模型設計的階層式少量樣本微調框架。它先用微調後的模型縮小到最容易混淆的幾個類別,再用大型語言模型產生屬性描述來細分。這種兩階段、以屬性為主的方法,搭配輕量級 adapter,不只提升微調效率,在多項基準測試上也優於現有方法。 PubMed DOI


站上相關主題文章列表

這篇論文提出了一個零樣本圖像分類框架,能在不需額外訓練數據的情況下識別新類別。透過基礎模型,增強了在缺乏特定訓練數據時的泛化能力。過程中使用ChatGPT和DALL-E根據文本提示生成未見類別的參考圖像,並用CLIP和DINO對測試圖像進行對齊,計算邏輯值。實驗結果顯示,這種方法在多個數據集上顯著提高了分類準確率,AUROC分數超過96%。框架的代碼已在GitHub上公開。 PubMed DOI

這篇論文介紹了ChatDiff,一種新穎的信息增強方法,旨在解決深度學習中的長尾數據問題。長尾分佈會導致某些類別數據稀缺,影響模型學習。ChatDiff透過從ChatGPT-3.5提取知識,增強這些類別的特徵,並利用條件擴散模型生成多樣化的正樣本,同時過濾掉負樣本以提升分類性能。實驗結果顯示,ChatDiff在多個長尾數據集上有效改善了代表性不足類別的分類效果。 PubMed DOI

視覺語言模型(VLMs)在跨模態推理上表現優異,因為它們能整合視覺與語言特徵。最近的進展集中在透過提示學習進行微調,以適應不同任務。TCP方法雖然能增強VLM的泛化能力,但固定的文本模板可能無法捕捉細微的類別差異。 為了解決這個問題,我們提出了自定義文本生成的類別感知提示調整(CuTCP),利用大型語言模型生成更具描述性的提示,提升模型對已知與未見類別的區分能力。實驗顯示,CuTCP在新類別上改善了0.74%,並在11個多樣化的圖像數據集上整體提升了0.44%。這證明CuTCP有效增強了模型的適應性與泛化能力,特別是在細粒度分類任務中。 PubMed DOI

提出的多模態特徵異質攻擊(MFHA)框架,旨在提升醫學影像中視覺-語言預訓練(VLP)模型的對抗攻擊效果與可轉移性。MFHA利用三元組對比學習的特徵異質化方法,結合數據增強與對比學習技術,強化對抗能力。為了增強可轉移性,框架採用跨模態變異聚合,透過文本引導影像攻擊來擾動特徵。實驗結果顯示,MFHA的可轉移攻擊能力平均提升16.05%,在對抗MiniGPT4和LLaVA等大型語言模型時表現優異。該框架已在GitHub上公開,供大家進一步探索。 PubMed DOI

這篇論文介紹了一種新策略,稱為導航思維鏈(NavCoT),旨在提升大型語言模型(LLMs)在視覺與語言導航(VLN)中的表現。由於訓練數據與VLN任務之間的差距,LLMs常面臨挑戰。NavCoT透過領域內訓練,幫助LLM進行自我引導的導航決策,包含三個步驟:想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示,NavCoT在多個VLN基準測試中表現優於傳統方法,並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

這篇論文提出一種全新的高效轉移學習方法,專門用在視覺-語言模型。它結合了兩種特徵調整器,並利用大型語言模型自動產生更精細、具情境的提示,取代傳統模板化文字。這讓模型能更準確分辨不同類別,在11個資料集上都拿下最佳成績。程式碼和提示內容可在 GitHub 查詢。 PubMed DOI

這篇論文提出LLaFS++新架構,首次用大型語言模型(LLMs)來提升少量樣本分割(FSS)效果。透過LLMs的知識,LLaFS++能克服標註資料少的問題,分割表現更好。架構有多項創新設計,像是直接輸出多邊形、區域-屬性表、多模態引導、課程學習結合偽樣本合成,以及新推論方法減少過度分割。實驗結果在多個基準上都拿下最佳表現,展現LLMs在少量樣本視覺任務的潛力。 PubMed DOI

作者發現,單純的VLMs在影像分類上表現比結合LLMs還好,但LLMs在需要推理或外部知識時有優勢。為此,他們提出一個輕量級的LLM router,能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練,效果不輸GPT-4V等先進系統,且成本更低。 PubMed DOI

細粒度實體辨識很難做,因為缺乏標註資料。這篇論文提出 FGER-GPT,利用 GPT 等大型語言模型,搭配階層式、多步驟推理,不用標註資料也能辨識細粒度實體。這方法能減少 LLM 產生幻覺的問題,在標準資料集上表現也很好,特別適合資源有限的實際應用。 PubMed DOI

這篇論文提出一個能調整題目難度的REC資料集,並設計具挑戰性的負樣本,讓多模態模型測試更精確。作者提出兩種結合專家模型和多模態大型語言模型的方法:一是簡單題交給輕量模型,難題再給MLLM處理,提升效率;二是專家模型先篩選物件區域,再由MLLM選答案。這兩種合作方式都讓REC任務表現大幅進步,證明專業和通用模型結合很有效。 PubMed DOI