Enhancing the Travel Experience for People with Visual Impairments through Multimodal Interaction: NaviGPT, A Real-Time AI-Driven Mobile Navigation System.
透過多模態互動提升視障人士的旅行體驗:NaviGPT,一個即時AI驅動的移動導航系統。
GROUP ACM SIGCHI Int Conf Support Group Work 2025-01-14
A novel voice in head actor critic reinforcement learning with human feedback framework for enhanced robot navigation.
一種新穎的頭腦聲音演員評論家強化學習框架,結合人類反饋以增強機器人導航。
Sci Rep 2025-02-28
這項工作介紹了一個名為 Voice in Head (ViH) 的新框架,利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs,並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能,讓使用者能用自然語言互動。為了確保安全性,系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%,顯示出在認知機器人技術上的重大進展。
PubMedDOI
LightVA: Lightweight Visual Analytics with LLM Agent-Based Task Planning and Execution.
LightVA:輕量級視覺分析與 LLM 代理基礎的任務規劃與執行。
IEEE Trans Vis Comput Graph 2025-03-03
Query by Example: Semantic Traffic Scene Retrieval Using LLM-Based Scene Graph Representation.
以範例查詢:使用基於大型語言模型(LLM)的場景圖表示進行語意交通場景檢索
Sensors (Basel) 2025-04-26
Collision risk prediction and takeover requirements assessment based on radar-video integrated sensors data: A system framework based on LLM.
基於雷達-影像整合感測器數據的碰撞風險預測與接管需求評估:一個基於LLM的系統架構
Accid Anal Prev 2025-05-06
3DBench: A scalable benchmark for object and scene-level instruction-tuning of 3D large language models.
3DBench:用於3D大型語言模型物件與場景層級指令微調的可擴展性基準
Neural Netw 2025-05-17
When language and vision meet road safety: Leveraging multimodal large language models for video-based traffic accident analysis.
當語言與視覺相遇於道路安全:運用多模態大型語言模型進行基於影片的交通事故分析
Accid Anal Prev 2025-06-05