原始文章

機器人單目姿態估計是神經網絡中的重要技術,結合了單目同時定位與地圖建構(SLAM)和單視角物體姿態估計(OPE)。這些技術的核心包括深度預測網絡、語意理解、神經隱式表示和大型語言模型(LLMs)。若能開發出一個完整的單目姿態估計系統,將大幅提升機器人的實際能力。未來的研究可能會著重於提高準確性和效率,並探討這些技術在實際應用中的整合可能性。 PubMed DOI


站上相關主題文章列表

新提議的氣味來源定位(OSL)技術結合嗅覺和視覺感測器,提升移動機器人在複雜環境中定位氣味的能力。這個新算法利用大型語言模型(LLM)來處理感測器數據,並指導機器人導航。主要包括高階推理模組,將數據編碼成多模態提示,和低階行動模組,將導航決策轉化為具體行動指令。測試結果顯示,基於LLM的方法在成功率和搜尋時間上,明顯優於傳統方法,無論在何種氣流環境中。 PubMed DOI

這個專案專注於為電動輪椅打造一個互動控制系統,使用機器人操作系統(ROS)。系統具備友善的網頁介面和由 Google Gemini 驅動的聊天機器人,提升用戶的控制與個性化體驗。 主要方法包括: 1. **API 整合**:存取用戶偏好資料庫。 2. **臉部識別**:根據用戶身份調整回應。 3. **群體識別**:協助導航。 4. **自適應聊天機器人回應**:提供量身定制的互動。 測試結果顯示,系統能根據用戶偏好調整輪椅行為,提升安全性與個性化導航,顯著改善使用者的自主性與生活品質。 PubMed DOI

這份調查探討大型語言模型(LLMs)與強化學習(RL)的整合,強調它們在多任務學習、樣本效率和高層次任務規劃等方面的潛力。作者將LLMs在RL中的角色分為四個功能:資訊處理者、獎勵設計者、決策者和生成器,並針對每個角色提出方法論和未來研究方向。這份調查旨在澄清研究領域,並提供框架,應用於機器人、自動駕駛和能源系統等領域,並討論LLMs增強RL的潛在應用與挑戰。 PubMed DOI

3D 表示學習在計算機視覺、自動駕駛和機器人技術中越來越重要,但將 2D 對齊方法應用於 3D 數據面臨三大挑戰:資訊劣化、協同不足和未充分利用。為了解決這些問題,我們提出了 JM3D,這是一種整合點雲、文本和圖像的整體方法。其創新包括結構化多模態組織器(SMO)和聯合多模態對齊(JMA),有效結合語言理解與視覺表示。我們的 JM3D-LLM 模型在多個數據集上表現優異,詳細資訊可在 https://github.com/Mr-Neko/JM3D 獲得。 PubMed DOI

這份報告全面回顧用單一RGB相機做3D人體姿勢估測的最新技術,特別聚焦在diffusion models和state-space models。內容涵蓋技術分類、優缺點、常用資料集與評估指標,也討論深度模糊和遮擋等挑戰及解決方法,並展望結合大型語言模型的未來發展。 PubMed DOI

這篇文章介紹視覺型無人機學習,說明其如何提升無人機自主性與操作能力,並分類各種視覺控制方法。內容涵蓋單機到多機協作應用,討論現有挑戰、創新與未來發展。特別指出,隨著大型語言模型和具身智能進步,視覺學習有望讓無人機更接近通用人工智慧。 PubMed DOI

GMM-Searcher 是一套讓機器人更聰明找東西的系統,結合大型語言模型、地圖和高斯混合模型,不只省記憶體,還能根據經驗學習。這方法讓機器人在大又會變動的環境裡,找東西更快、更有效率,還能一直進步,實驗結果也證明搜尋效率真的有提升。 PubMed DOI

研究團隊開發的 ELLMER 機器人架構,結合 GPT-4 和檢索增強生成技術,讓機器人能適應變化多端的環境,執行像泡咖啡、擺盤等多步驟任務。透過力覺和視覺回饋,機器人的智慧和適應力大幅提升。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

這篇論文提出Argus,一種結合2D多視角影像、相機位置和3D點雲的新3D多模態架構。Argus融合2D細節和3D特徵,彌補單靠點雲資訊不足的問題,讓大型語言模型在3D場景理解上更精準。實驗證明,Argus在多項3D任務表現都比現有方法更優秀。 PubMed DOI