原始文章

這篇論文介紹了Cap4Video++,一個新框架,透過整合用戶生成的元數據(特別是視頻字幕)來提升視頻理解。框架分為三個階段: 1. **輸入階段**:利用語義對樣本選擇從字幕中挑選有用樣本,支援對比學習。 2. **中間階段**:進行視頻-字幕跨模態互動和自適應字幕選擇,增強視頻與字幕的表徵。 3. **輸出階段**:設有互補的字幕-文本匹配分支,精煉相似度計算,改善視頻表徵。 實驗結果顯示,Cap4Video++在九個基準測試中表現優於現有模型,證明自動生成字幕能有效增強視頻理解。 PubMed DOI


站上相關主題文章列表

傳統研究偏向分析影片數據,但加入領域知識文字描述可提升異常檢測效果。利用語言模型生成描述,並計算與幀相似性,可在無需標記的數據集中偵測異常。此方法以文字條件相似性改進餘弦相似性,優於非監督方法。效率高,與弱監督方法媲美,顯示文字描述在非監督異常檢測中的潛力。 PubMed DOI

研究利用生成模型幫助AI代理根據文字描述視覺化新地點,提升識別未知場景的能力。整合Stable Diffusion、CLIP和VisualBERT等模型,並運用ChatGPT等工具建立簡潔描述。研究結果顯示結合生成工具和多模態嵌入有助於增強代理的場景識別能力。這項研究對於無人機送貨和服務機器人在陌生地點導航具有應用潛力。 PubMed DOI

這篇論文介紹了Open-VCLIP++,是一個將對比式語言-影像預訓練(CLIP)框架改造成零樣本視頻辨識工具。透過調整CLIP以捕捉視頻的時空關係,並運用插值權重優化等技術,這個框架在動作辨識資料集上取得了領先的成果。在視頻-文本檢索任務中表現優異,且只需極少微調數據。程式碼可於GitHub專案https://github.com/wengzejia1/Open-VCLIP 找到。 PubMed DOI

這篇論文探討了在教育領域運用生成式人工智慧(AI)的好處,專注於設計AI教育影片助手以提升多元學習體驗。這個工具整合了轉錄、參與度和強化模組,運用自動語音識別技術。研究結果透過人工評估和自動指標的綜合方式評估了這個工具對學習體驗的影響,顯示對參與度、內容組織和可用性有積極影響,呈現AI強化教育設計並提供個人化學習體驗的潛力。 PubMed DOI

視覺語言導航(VLN)是指代理根據語言指示到達目標位置。現有的VLN代理在新場景中難以準確對齊地標。CONSOLE提出了一種新方法,利用ChatGPT和CLIP等大型模型解決地標發現問題,並透過評分模組糾正噪音,提高準確性。這種方法在VLN基準測試中表現優於基準線,實現了R2R和R4R的最新成果。 PubMed DOI

多模態大型語言模型(MLLMs)的進展正在改變計算機視覺,尤其是多功能基礎模型的開發。不過,對於低層次視覺感知和理解的評估仍待深入探討。為此,我們建立了基準設置,模擬人類對低層次視覺的語言反應,包含低層次視覺感知(A1)和描述(A2)兩大任務,並引入LLVisionQA+和LLDescribe+數據集。此外,我們還評估了MLLMs預測質量分數的能力(A3)。結果顯示,雖然多數模型在單一圖像上表現不錯,但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

隨著籃球越來越受歡迎,許多球迷在快速且複雜的比賽中感到難以跟上。為了解決這個問題,我們推出了Sportify,一個視覺問答系統,幫助球迷理解籃球戰術。Sportify提供三種動作視覺化—傳球、切入和掩護,並利用大型語言模型來解釋球員的行動。我們測試了Sportify的效果,結果顯示它顯著提升了球迷的戰術理解,並豐富了觀賽體驗,特別是第三人稱敘述提供了詳細解釋,而第一人稱則增強了參與感。 PubMed DOI

大型語言模型(LLMs)在智能視覺化系統中有很大潛力,尤其在專業應用上,但整合時面臨挑戰,包括領域特定問題、視覺化過程及用戶互動。為解決這些問題,我們提出了一個框架,利用微調的LLMs來改善視覺互動。 在教育領域,智能視覺化系統能支持初學者的自我調節學習。我們介紹了Tailor-Mind,一個互動式視覺化系統,幫助AI初學者進行自我調節學習。研究顯示,Tailor-Mind能提供個性化建議,增強學習體驗,驗證了我們框架的有效性。 PubMed DOI

新興的多模態大型語言模型(MLLMs)在圖表問題回答(CQA)上展現出潛力,但目前的研究存在一些不足。首先,過度關注數據量的收集,卻忽略了視覺編碼和特定QA任務的需求,導致數據分佈不均。其次,現有方法多針對自然圖像,未考慮圖表的獨特性。為了解決這些問題,我們提出了一種視覺參考的指令調整方法,並透過新數據引擎篩選高質量數據,改善模型的細粒度識別。實驗結果顯示,我們的方法在基準測試中持續超越其他CQA模型,並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

這篇論文介紹了一種新的組合影像檢索(CoIR)方法,並提出了組合視頻檢索(CoVR)的自動數據集生成技術。作者不再依賴手動標註,而是從視頻標題中生成影像-文本-影像三元組,創建了包含160萬個三元組的WebVid-CoVR數據集,並建立了新的基準。研究還顯示,這種方法同樣適用於影像-標題對,從Conceptual Captions數據集中生成330萬個訓練三元組。實驗結果顯示,這些方法能顯著提升CoIR任務的表現,並已公開相關代碼和數據集供研究使用。 PubMed DOI