原始文章

動態視覺與語言導航(DynamicVLN)任務旨在改善傳統的視覺與語言導航(VLN),融入了如車輛移動、交通信號、行人活動和天氣變化等動態因素。這項新任務要求代理不僅要遵循指示,還需在面對突發事件時展現推理和適應能力。為此,研究者創建了十個動態導航場景,並利用CARLA模擬器和大型語言模型建立了包含11,261個實例的數據集,提供真實的訓練環境,並引入基準模型以提升導航能力,目標是開發能在複雜環境中運作的強大代理。 PubMed DOI


站上相關主題文章列表

所提出的知識蒸餾增強行為轉換器(KD-BeT)框架,結合模仿學習和強化學習的優勢,旨在改善自駕車的行為決策。雖然強化學習在複雜環境中的推理能力較弱,但KD-BeT利用變壓器的上下文推理能力來增強決策。首先,透過模仿學習訓練教師模型,再利用知識蒸餾指導學生模型,提升強化學習的效率和性能。模擬結果顯示,KD-BeT在CARLA NoCrash基準測試中表現優異,特別在交通效率和駕駛安全性上超越其他方法,為解決自駕車挑戰提供了新思路。 PubMed DOI

NaviGPT是一個創新的導航系統,專為視覺障礙者設計,結合了LiDAR障礙物檢測、震動反饋和大型語言模型(LLMs)。與傳統解決方案需切換多個應用不同,NaviGPT提供即時的環境資訊,簡化使用者體驗,讓導航更有效率和直觀。此外,透過位置和感測器數據,NaviGPT能解決回應延遲問題,確保在各種環境中提供即時支援。 PubMed DOI

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架,利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs,並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能,讓使用者能用自然語言互動。為了確保安全性,系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%,顯示出在認知機器人技術上的重大進展。 PubMed DOI

LightVA 框架旨在透過整合大型語言模型 (LLM) 代理,簡化視覺分析過程,幫助分析師更有效地規劃和執行任務。其主要組成包括: 1. **任務提案與規劃**:將複雜任務分解為可管理的部分,提升組織與執行效率。 2. **數據建模與視覺化**:執行者負責生成視覺化圖表及數據分析。 3. **動態控制**:控制器協調規劃者與執行者的互動,隨任務變化調整複雜度。 4. **用戶互動**:提供任務流程圖和互動式視覺化面板,增強用戶控制感。 實際場景與專家研究顯示,LightVA 有潛力改善視覺分析工作流程,讓其更智能且友善於用戶。 PubMed DOI

這篇論文介紹了一種新策略,稱為導航思維鏈(NavCoT),旨在提升大型語言模型(LLMs)在視覺與語言導航(VLN)中的表現。由於訓練數據與VLN任務之間的差距,LLMs常面臨挑戰。NavCoT透過領域內訓練,幫助LLM進行自我引導的導航決策,包含三個步驟:想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示,NavCoT在多個VLN基準測試中表現優於傳統方法,並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

這篇論文提出用視覺大型語言模型(VLMs)自動從影像生成道路場景圖,能細緻捕捉交通場景的語意和物件關係。作者還設計了可擴充的場景屬性和圖形相似度量法,並建立了1000筆標註資料集。實驗證明,這方法能用文字、圖片或影片靈活檢索語意相似的交通場景,對自駕車應用很有幫助。 PubMed DOI

這篇文章介紹視覺型無人機學習,說明其如何提升無人機自主性與操作能力,並分類各種視覺控制方法。內容涵蓋單機到多機協作應用,討論現有挑戰、創新與未來發展。特別指出,隨著大型語言模型和具身智能進步,視覺學習有望讓無人機更接近通用人工智慧。 PubMed DOI

這項研究提出一套可解釋的系統(CPTR-LLM),用大型語言模型來預測自駕車的碰撞風險,並判斷駕駛人何時該接手。經過大量數據和兩階段訓練,模型預測準確率高達0.88,也能有效減少不必要或危險的接管。結果顯示,大型語言模型有助提升自駕車的道路安全。 PubMed DOI

目前針對多模態大型語言模型處理點雲資料的評測標準很有限,難以全面評估模型的空間理解與推理能力。為此,作者提出3DBench,涵蓋十項物件與場景任務,並分為表達、感知、推理三類。作者也建立了超過23萬筆3D指令問答資料集,並設計Bench-model來提升表現。程式碼和資料已開源於GitHub。 PubMed DOI

這篇論文提出 SeeUnsafe 架構,運用多模態大型語言模型自動化交通監視器事故偵測,不需人工後處理,還能互動式分析影片。系統可彈性調整分析任務,並有新指標 IMS 評估回應品質。實驗證明,SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI