Knowledge Distillation-Enhanced Behavior Transformer for Decision-Making of Autonomous Driving.
知識蒸餾增強的行為轉換器在自動駕駛決策中的應用。 Sensors (Basel) 2025-01-11

所提出的知識蒸餾增強行為轉換器（KD-BeT）框架，結合模仿學習和強化學習的優勢，旨在改善自駕車的行為決策。雖然強化學習在複雜環境中的推理能力較弱，但KD-BeT利用變壓器的上下文推理能力來增強決策。首先，透過模仿學習訓練教師模型，再利用知識蒸餾指導學生模型，提升強化學習的效率和性能。模擬結果顯示，KD-BeT在CARLA NoCrash基準測試中表現優異，特別在交通效率和駕駛安全性上超越其他方法，為解決自駕車挑戰提供了新思路。 PubMed DOI

Enhancing the Travel Experience for People with Visual Impairments through Multimodal Interaction: NaviGPT, A Real-Time AI-Driven Mobile Navigation System.
透過多模態互動提升視障人士的旅行體驗：NaviGPT，一個即時AI驅動的移動導航系統。 GROUP ACM SIGCHI Int Conf Support Group Work 2025-01-14

NaviGPT是一個創新的導航系統，專為視覺障礙者設計，結合了LiDAR障礙物檢測、震動反饋和大型語言模型（LLMs）。與傳統解決方案需切換多個應用不同，NaviGPT提供即時的環境資訊，簡化使用者體驗，讓導航更有效率和直觀。此外，透過位置和感測器數據，NaviGPT能解決回應延遲問題，確保在各種環境中提供即時支援。 PubMed DOI

A novel voice in head actor critic reinforcement learning with human feedback framework for enhanced robot navigation.
一種新穎的頭腦聲音演員評論家強化學習框架，結合人類反饋以增強機器人導航。 Sci Rep 2025-02-28

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架，利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs，並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能，讓使用者能用自然語言互動。為了確保安全性，系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%，顯示出在認知機器人技術上的重大進展。 PubMed DOI

LightVA: Lightweight Visual Analytics with LLM Agent-Based Task Planning and Execution.
LightVA：輕量級視覺分析與 LLM 代理基礎的任務規劃與執行。 IEEE Trans Vis Comput Graph 2025-03-03

LightVA 框架旨在透過整合大型語言模型 (LLM) 代理，簡化視覺分析過程，幫助分析師更有效地規劃和執行任務。其主要組成包括： 1. **任務提案與規劃**：將複雜任務分解為可管理的部分，提升組織與執行效率。 2. **數據建模與視覺化**：執行者負責生成視覺化圖表及數據分析。 3. **動態控制**：控制器協調規劃者與執行者的互動，隨任務變化調整複雜度。 4. **用戶互動**：提供任務流程圖和互動式視覺化面板，增強用戶控制感。實際場景與專家研究顯示，LightVA 有潛力改善視覺分析工作流程，讓其更智能且友善於用戶。 PubMed DOI

NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning.
NavCoT: 透過學習解耦推理提升基於大型語言模型的視覺與語言導航。 IEEE Trans Pattern Anal Mach Intell 2025-03-25

這篇論文介紹了一種新策略，稱為導航思維鏈（NavCoT），旨在提升大型語言模型（LLMs）在視覺與語言導航（VLN）中的表現。由於訓練數據與VLN任務之間的差距，LLMs常面臨挑戰。NavCoT透過領域內訓練，幫助LLM進行自我引導的導航決策，包含三個步驟：想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示，NavCoT在多個VLN基準測試中表現優於傳統方法，並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

Query by Example: Semantic Traffic Scene Retrieval Using LLM-Based Scene Graph Representation.
以範例查詢：使用基於大型語言模型（LLM）的場景圖表示進行語意交通場景檢索 Sensors (Basel) 2025-04-26

這篇論文提出用視覺大型語言模型（VLMs）自動從影像生成道路場景圖，能細緻捕捉交通場景的語意和物件關係。作者還設計了可擴充的場景屬性和圖形相似度量法，並建立了1000筆標註資料集。實驗證明，這方法能用文字、圖片或影片靈活檢索語意相似的交通場景，對自駕車應用很有幫助。 PubMed DOI

Vision-Based Learning for Drones: A Survey.
無人機視覺型學習之綜述 IEEE Trans Neural Netw Learn Syst 2025-05-06

這篇文章介紹視覺型無人機學習，說明其如何提升無人機自主性與操作能力，並分類各種視覺控制方法。內容涵蓋單機到多機協作應用，討論現有挑戰、創新與未來發展。特別指出，隨著大型語言模型和具身智能進步，視覺學習有望讓無人機更接近通用人工智慧。 PubMed DOI

Collision risk prediction and takeover requirements assessment based on radar-video integrated sensors data: A system framework based on LLM.
基於雷達-影像整合感測器數據的碰撞風險預測與接管需求評估：一個基於LLM的系統架構 Accid Anal Prev 2025-05-06

這項研究提出一套可解釋的系統（CPTR-LLM），用大型語言模型來預測自駕車的碰撞風險，並判斷駕駛人何時該接手。經過大量數據和兩階段訓練，模型預測準確率高達0.88，也能有效減少不必要或危險的接管。結果顯示，大型語言模型有助提升自駕車的道路安全。 PubMed DOI

3DBench: A scalable benchmark for object and scene-level instruction-tuning of 3D large language models.
3DBench：用於3D大型語言模型物件與場景層級指令微調的可擴展性基準 Neural Netw 2025-05-17

目前針對多模態大型語言模型處理點雲資料的評測標準很有限，難以全面評估模型的空間理解與推理能力。為此，作者提出3DBench，涵蓋十項物件與場景任務，並分為表達、感知、推理三類。作者也建立了超過23萬筆3D指令問答資料集，並設計Bench-model來提升表現。程式碼和資料已開源於GitHub。 PubMed DOI

When language and vision meet road safety: Leveraging multimodal large language models for video-based traffic accident analysis.
當語言與視覺相遇於道路安全：運用多模態大型語言模型進行基於影片的交通事故分析 Accid Anal Prev 2025-06-05

這篇論文提出 SeeUnsafe 架構，運用多模態大型語言模型自動化交通監視器事故偵測，不需人工後處理，還能互動式分析影片。系統可彈性調整分析任務，並有新指標 IMS 評估回應品質。實驗證明，SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI

原始文章

站上相關主題文章列表