原始文章

視覺語言模型(VLMs)在跨模態推理上表現優異,因為它們能整合視覺與語言特徵。最近的進展集中在透過提示學習進行微調,以適應不同任務。TCP方法雖然能增強VLM的泛化能力,但固定的文本模板可能無法捕捉細微的類別差異。 為了解決這個問題,我們提出了自定義文本生成的類別感知提示調整(CuTCP),利用大型語言模型生成更具描述性的提示,提升模型對已知與未見類別的區分能力。實驗顯示,CuTCP在新類別上改善了0.74%,並在11個多樣化的圖像數據集上整體提升了0.44%。這證明CuTCP有效增強了模型的適應性與泛化能力,特別是在細粒度分類任務中。 PubMed DOI


站上相關主題文章列表

這段文字介紹了 T2I-CompBench++,一個新基準,旨在提升文本到圖像的生成效果。它包含 8,000 個提示,分為四大類別:屬性綁定、物件關係、生成數學能力和複雜組合,還有八個子類別,如 3D 空間關係。此外,基準引入了新的評估指標,特別是針對 3D 關係和數學能力的檢測指標,並利用多模態大型語言模型進行分析。研究評估了 11 個文本到圖像模型,包括 FLUX.1 和 DALLE-3,以測試基準的有效性和 MLLMs 的能力。更多資訊可參考專案頁面。 PubMed DOI

大型語言模型(LLMs)因為能用簡單的提示處理各種自然語言任務而受到廣泛歡迎,讓非專家也能輕鬆使用。不過,撰寫有效的提示卻不容易,因為需要特定知識。為了幫助用戶改善提示,我們開發了PROMPTAID,這是一個互動式的視覺分析系統,能讓用戶創建、精煉和測試提示。PROMPTAID透過協調視覺化,促進關鍵字擾動、意義重述和選擇最佳範例,並經過專家意見和用戶研究驗證,讓用戶能輕鬆迭代提示,生成多樣選項,並有效分析提示表現。 PubMed DOI

這篇論文探討了不同提示風格(JSON、YAML 和混合 CSV/前綴)對大型語言模型(如 GPT-4o)生成結構化數據的影響,強調提示風格在準確性、效率和成本效益上的重要性。研究評估了這些風格在個人故事、收據和醫療記錄等應用中的表現,並根據準確性、標記成本和處理時間進行比較。 主要發現包括: - **JSON**:高準確性但標記成本較高。 - **YAML**:在可讀性和效率間取得平衡。 - **混合 CSV/前綴**:在簡單數據結構中表現優異。 論文提供了選擇合適提示風格的建議,幫助優化 AI 應用的數據生成。 PubMed DOI

這篇論文提出MSCPT新方法,專為少量樣本和弱監督下的全片影像分類設計。MSCPT結合多尺度病理知識、圖形提示和優化聚合方式,有效提升視覺-語言模型表現。多項實驗證明MSCPT優於現有方法,程式碼已開源(https://github.com/Hanminghao/MSCPT)。 PubMed DOI

這篇論文提出一種全新的高效轉移學習方法,專門用在視覺-語言模型。它結合了兩種特徵調整器,並利用大型語言模型自動產生更精細、具情境的提示,取代傳統模板化文字。這讓模型能更準確分辨不同類別,在11個資料集上都拿下最佳成績。程式碼和提示內容可在 GitHub 查詢。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

這篇論文提出 AFSPrompt,一種免訓練的新方法,專門用來挑選和組織知識型視覺問答的範例。它用語意概念來描述範例,讓選擇過程更透明、可信。AFSPrompt 先用多模態嵌入過濾不相關範例,再用模糊集合邏輯排序,適合小型語言模型,減少對大型 API 依賴。實驗證明能有效提升 VQA 表現。程式碼:https://github.com/afs001/AFSPrompt PubMed DOI

作者發現,單純的VLMs在影像分類上表現比結合LLMs還好,但LLMs在需要推理或外部知識時有優勢。為此,他們提出一個輕量級的LLM router,能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練,效果不輸GPT-4V等先進系統,且成本更低。 PubMed DOI

這篇論文提出CAT+方法,專為提升多模態大型語言模型在影音問答上的表現,解決理解模糊和幻覺問題。CAT+用SQM強化理解,AS-DPO減少模糊回答,並設計AVHbench評測模型幻覺現象。實驗證明CAT+比現有方法更準確可靠。 PubMed DOI

這篇論文提出CILMP方法,結合大型語言模型產生的專業醫學知識,來客製化醫學影像分類模型的提示語。CILMP能根據不同疾病和影像自動調整提示語,讓視覺-語言模型在多種醫學影像分類任務上表現更好,效果也比現有方法優秀。 PubMed DOI