原始文章

動態視覺與語言導航(DynamicVLN)任務旨在改善傳統的視覺與語言導航(VLN),融入了如車輛移動、交通信號、行人活動和天氣變化等動態因素。這項新任務要求代理不僅要遵循指示,還需在面對突發事件時展現推理和適應能力。為此,研究者創建了十個動態導航場景,並利用CARLA模擬器和大型語言模型建立了包含11,261個實例的數據集,提供真實的訓練環境,並引入基準模型以提升導航能力,目標是開發能在複雜環境中運作的強大代理。 PubMed DOI


站上相關主題文章列表

介紹了一個新的研究,提出了「分心駕駛語言模型」(DDLM),利用視覺大型語言模型(LLM)來辨識分心駕駛行為。DDLM整合了人體姿勢估計技術,分析關鍵姿勢特徵,並透過推理鏈框架提供清晰解釋。研究顯示,DDLM在評估駕駛行為和風險水平方面比標準模型表現更佳,可有效增進駕駛安全性。 PubMed DOI

大型語言模型對機器人任務規劃有幫助,但執行任務時有困難。提出多層模型,逐層分解任務以改善處理。視覺語言模型可幫助環境感知,整合任務目標與環境數據,進行精確運動規劃。語義對齊方法可增強任務可執行性。無人載具實驗驗證了此方法對應機器人任務規劃與執行的有效應對。 PubMed DOI

這個研究旨在幫助代理人更好地理解自然語言指令,探索使用大型語言模型在決策任務中的應用。新方法CPMI整合LLMs和輔助模組,提升了在執行指令方面的表現,尤其在數據有限的情況下。 PubMed DOI

視覺語言導航(VLN)是指代理根據語言指示到達目標位置。現有的VLN代理在新場景中難以準確對齊地標。CONSOLE提出了一種新方法,利用ChatGPT和CLIP等大型模型解決地標發現問題,並透過評分模組糾正噪音,提高準確性。這種方法在VLN基準測試中表現優於基準線,實現了R2R和R4R的最新成果。 PubMed DOI

這篇論文提出一種新方法,利用大型語言模型(LLMs)、AI代理和開放地理數據,提升城市騎乘安全。方法包括分析城市風險和現有騎乘設施的數據,並透過數據預處理和提示工程,創建友好的系統,提供騎乘安全見解。過程分為數據準備、代理協調和決策執行三步,確保開源工具有效整合,促進城市規劃者和騎士的可及性。研究顯示結合LLMs和AI代理的潛力,能改善騎乘實踐和城市交通規劃。 PubMed DOI

SafeMod是一個新框架,旨在提升自動駕駛的安全性,透過改善複雜環境中的決策和情境管理。它克服了傳統方法的局限,採用雙向規劃結構,包括前向和後向規劃。前向規劃利用大型語言模型預測周圍行為,生成行動預測,並由基於變壓器的規劃器處理,結合文本和影像數據創建駕駛軌跡。後向規劃則透過強化學習精煉這些軌跡,選擇最佳行動。實驗結果顯示,SafeMod在安全性和決策能力上優於其他系統,顯示其在自動駕駛中的潛力。 PubMed DOI

NaviGPT是一個創新的導航系統,專為視覺障礙者設計,結合了LiDAR障礙物檢測、震動反饋和大型語言模型(LLMs)。與傳統解決方案需切換多個應用不同,NaviGPT提供即時的環境資訊,簡化使用者體驗,讓導航更有效率和直觀。此外,透過位置和感測器數據,NaviGPT能解決回應延遲問題,確保在各種環境中提供即時支援。 PubMed DOI

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架,利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs,並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能,讓使用者能用自然語言互動。為了確保安全性,系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%,顯示出在認知機器人技術上的重大進展。 PubMed DOI

LightVA 框架旨在透過整合大型語言模型 (LLM) 代理,簡化視覺分析過程,幫助分析師更有效地規劃和執行任務。其主要組成包括: 1. **任務提案與規劃**:將複雜任務分解為可管理的部分,提升組織與執行效率。 2. **數據建模與視覺化**:執行者負責生成視覺化圖表及數據分析。 3. **動態控制**:控制器協調規劃者與執行者的互動,隨任務變化調整複雜度。 4. **用戶互動**:提供任務流程圖和互動式視覺化面板,增強用戶控制感。 實際場景與專家研究顯示,LightVA 有潛力改善視覺分析工作流程,讓其更智能且友善於用戶。 PubMed DOI

這篇論文介紹了一種新策略,稱為導航思維鏈(NavCoT),旨在提升大型語言模型(LLMs)在視覺與語言導航(VLN)中的表現。由於訓練數據與VLN任務之間的差距,LLMs常面臨挑戰。NavCoT透過領域內訓練,幫助LLM進行自我引導的導航決策,包含三個步驟:想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示,NavCoT在多個VLN基準測試中表現優於傳統方法,並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI