Unsupervised Video Anomaly Detection Based on Similarity with Predefined Text Descriptions.
基於與預定義文本描述的相似性的非監督式視頻異常檢測。 Sensors (Basel) 2023-08-01

傳統研究偏向分析影片數據，但加入領域知識文字描述可提升異常檢測效果。利用語言模型生成描述，並計算與幀相似性，可在無需標記的數據集中偵測異常。此方法以文字條件相似性改進餘弦相似性，優於非監督方法。效率高，與弱監督方法媲美，顯示文字描述在非監督異常檢測中的潛力。 PubMed DOI

A Study on Generative Models for Visual Recognition of Unknown Scenes Using a Textual Description.
使用文本描述進行未知場景視覺識別的生成模型研究。 Sensors (Basel) 2023-11-17

研究利用生成模型幫助AI代理根據文字描述視覺化新地點，提升識別未知場景的能力。整合Stable Diffusion、CLIP和VisualBERT等模型，並運用ChatGPT等工具建立簡潔描述。研究結果顯示結合生成工具和多模態嵌入有助於增強代理的場景識別能力。這項研究對於無人機送貨和服務機器人在陌生地點導航具有應用潛力。 PubMed DOI

Building an Open-Vocabulary Video CLIP Model With Better Architectures, Optimization and Data.
建立一個具有更好架構、優化和數據的開放詞彙視頻 CLIP 模型。 IEEE Trans Pattern Anal Mach Intell 2024-01-23

這篇論文介紹了Open-VCLIP++，是一個將對比式語言-影像預訓練（CLIP）框架改造成零樣本視頻辨識工具。透過調整CLIP以捕捉視頻的時空關係，並運用插值權重優化等技術，這個框架在動作辨識資料集上取得了領先的成果。在視頻-文本檢索任務中表現優異，且只需極少微調數據。程式碼可於GitHub專案https://github.com/wengzejia1/Open-VCLIP 找到。 PubMed DOI

The implementation of the cognitive theory of multimedia learning in the design and evaluation of an AI educational video assistant utilizing large language models.
將「The implementation of the cognitive theory of multimedia learning in the design and evaluation of an AI educational video assistant utilizing large language models.」翻譯為繁體中文：「在設計和評估利用大型語言模型的人工智慧教育視頻助手中實施多媒體學習的認知理論。」 Heliyon 2024-02-15

這篇論文探討了在教育領域運用生成式人工智慧（AI）的好處，專注於設計AI教育影片助手以提升多元學習體驗。這個工具整合了轉錄、參與度和強化模組，運用自動語音識別技術。研究結果透過人工評估和自動指標的綜合方式評估了這個工具對學習體驗的影響，顯示對參與度、內容組織和可用性有積極影響，呈現AI強化教育設計並提供個人化學習體驗的潛力。 PubMed DOI

Correctable Landmark Discovery Via Large Models for Vision-Language Navigation.
透過大型模型進行視覺語言導航的可糾正地標發現。 IEEE Trans Pattern Anal Mach Intell 2024-05-31

視覺語言導航（VLN）是指代理根據語言指示到達目標位置。現有的VLN代理在新場景中難以準確對齊地標。CONSOLE提出了一種新方法，利用ChatGPT和CLIP等大型模型解決地標發現問題，並透過評分模組糾正噪音，提高準確性。這種方法在VLN基準測試中表現優於基準線，實現了R2R和R4R的最新成果。 PubMed DOI

Q-BENCH: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs.
Q-BENCH：一個針對單幅圖像到成對圖像的低階視覺多模態基礎模型的基準。 IEEE Trans Pattern Anal Mach Intell 2024-08-21

多模態大型語言模型（MLLMs）的進展正在改變計算機視覺，尤其是多功能基礎模型的開發。不過，對於低層次視覺感知和理解的評估仍待深入探討。為此，我們建立了基準設置，模擬人類對低層次視覺的語言反應，包含低層次視覺感知（A1）和描述（A2）兩大任務，並引入LLVisionQA+和LLDescribe+數據集。此外，我們還評估了MLLMs預測質量分數的能力（A3）。結果顯示，雖然多數模型在單一圖像上表現不錯，但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

Sportify: Question Answering with Embedded Visualizations and Personified Narratives for Sports Video.
Sportify：結合嵌入式視覺化和擬人化敘事的運動視頻問答系統。 IEEE Trans Vis Comput Graph 2024-09-10

隨著籃球越來越受歡迎，許多球迷在快速且複雜的比賽中感到難以跟上。為了解決這個問題，我們推出了Sportify，一個視覺問答系統，幫助球迷理解籃球戰術。Sportify提供三種動作視覺化—傳球、切入和掩護，並利用大型語言模型來解釋球員的行動。我們測試了Sportify的效果，結果顯示它顯著提升了球迷的戰術理解，並豐富了觀賽體驗，特別是第三人稱敘述提供了詳細解釋，而第一人稱則增強了參與感。 PubMed DOI

Fine-Tuned Large Language Model for Visualization System: A Study on Self-Regulated Learning in Education.
針對視覺化系統的微調大型語言模型：教育中自我調節學習的研究。 IEEE Trans Vis Comput Graph 2024-09-10

大型語言模型（LLMs）在智能視覺化系統中有很大潛力，尤其在專業應用上，但整合時面臨挑戰，包括領域特定問題、視覺化過程及用戶互動。為解決這些問題，我們提出了一個框架，利用微調的LLMs來改善視覺互動。在教育領域，智能視覺化系統能支持初學者的自我調節學習。我們介紹了Tailor-Mind，一個互動式視覺化系統，幫助AI初學者進行自我調節學習。研究顯示，Tailor-Mind能提供個性化建議，增強學習體驗，驗證了我們框架的有效性。 PubMed DOI

Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning.
透過視覺參考指導調整推進多模態大型語言模型在圖表問題回答中的應用。 IEEE Trans Vis Comput Graph 2024-09-10

新興的多模態大型語言模型（MLLMs）在圖表問題回答（CQA）上展現出潛力，但目前的研究存在一些不足。首先，過度關注數據量的收集，卻忽略了視覺編碼和特定QA任務的需求，導致數據分佈不均。其次，現有方法多針對自然圖像，未考慮圖表的獨特性。為了解決這些問題，我們提出了一種視覺參考的指令調整方法，並透過新數據引擎篩選高質量數據，改善模型的細粒度識別。實驗結果顯示，我們的方法在基準測試中持續超越其他CQA模型，並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

CoVR-2: Automatic Data Construction for Composed Video Retrieval.
CoVR-2：自動數據構建於組合視頻檢索。 IEEE Trans Pattern Anal Mach Intell 2024-09-20

這篇論文介紹了一種新的組合影像檢索（CoIR）方法，並提出了組合視頻檢索（CoVR）的自動數據集生成技術。作者不再依賴手動標註，而是從視頻標題中生成影像-文本-影像三元組，創建了包含160萬個三元組的WebVid-CoVR數據集，並建立了新的基準。研究還顯示，這種方法同樣適用於影像-標題對，從Conceptual Captions數據集中生成330萬個訓練三元組。實驗結果顯示，這些方法能顯著提升CoIR任務的表現，並已公開相關代碼和數據集供研究使用。 PubMed DOI

原始文章

站上相關主題文章列表