原始文章

機器人單目姿態估計是神經網絡中的重要技術,結合了單目同時定位與地圖建構(SLAM)和單視角物體姿態估計(OPE)。這些技術的核心包括深度預測網絡、語意理解、神經隱式表示和大型語言模型(LLMs)。若能開發出一個完整的單目姿態估計系統,將大幅提升機器人的實際能力。未來的研究可能會著重於提高準確性和效率,並探討這些技術在實際應用中的整合可能性。 PubMed DOI


站上相關主題文章列表

大型語言模型對機器人任務規劃有幫助,但執行任務時有困難。提出多層模型,逐層分解任務以改善處理。視覺語言模型可幫助環境感知,整合任務目標與環境數據,進行精確運動規劃。語義對齊方法可增強任務可執行性。無人載具實驗驗證了此方法對應機器人任務規劃與執行的有效應對。 PubMed DOI

隨著人工智慧的快速進步,服務機器人在日常生活中越來越普遍,這要求它們能準確識別人類意圖。現有方法在複雜環境中常常無法達標。為了解決這個問題,我們提出了一個基於大型語言模型和知識圖譜的意圖識別框架(LKIRF)。這個框架結合了大型語言模型和知識圖譜,提升了服務機器人的意圖識別能力。實驗結果顯示,LKIRF在各種場景中的預測準確性超越傳統方法,並增強了意圖推理的透明度和可解釋性。 PubMed DOI

這篇論文探討了多模態大型語言模型(MLLMs)的最新進展,特別是像GPT-4V這類結合語言處理與多模態任務的模型。作者強調了MLLMs的獨特能力,例如從圖像生成敘事及進行複雜推理,顯示出朝向人工通用智慧的潛力。論文提供了MLLMs的全面概述,包括架構、訓練策略和評估方法,並探討了增強其適應性的方法。此外,還討論了多模態幻覺等問題及未來研究方向,以提升MLLM的能力。 PubMed DOI

新提議的氣味來源定位(OSL)技術結合嗅覺和視覺感測器,提升移動機器人在複雜環境中定位氣味的能力。這個新算法利用大型語言模型(LLM)來處理感測器數據,並指導機器人導航。主要包括高階推理模組,將數據編碼成多模態提示,和低階行動模組,將導航決策轉化為具體行動指令。測試結果顯示,基於LLM的方法在成功率和搜尋時間上,明顯優於傳統方法,無論在何種氣流環境中。 PubMed DOI

這個專案專注於為電動輪椅打造一個互動控制系統,使用機器人操作系統(ROS)。系統具備友善的網頁介面和由 Google Gemini 驅動的聊天機器人,提升用戶的控制與個性化體驗。 主要方法包括: 1. **API 整合**:存取用戶偏好資料庫。 2. **臉部識別**:根據用戶身份調整回應。 3. **群體識別**:協助導航。 4. **自適應聊天機器人回應**:提供量身定制的互動。 測試結果顯示,系統能根據用戶偏好調整輪椅行為,提升安全性與個性化導航,顯著改善使用者的自主性與生活品質。 PubMed DOI

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架,利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs,並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能,讓使用者能用自然語言互動。為了確保安全性,系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%,顯示出在認知機器人技術上的重大進展。 PubMed DOI

這份調查探討大型語言模型(LLMs)與強化學習(RL)的整合,強調它們在多任務學習、樣本效率和高層次任務規劃等方面的潛力。作者將LLMs在RL中的角色分為四個功能:資訊處理者、獎勵設計者、決策者和生成器,並針對每個角色提出方法論和未來研究方向。這份調查旨在澄清研究領域,並提供框架,應用於機器人、自動駕駛和能源系統等領域,並討論LLMs增強RL的潛在應用與挑戰。 PubMed DOI

3D 表示學習在計算機視覺、自動駕駛和機器人技術中越來越重要,但將 2D 對齊方法應用於 3D 數據面臨三大挑戰:資訊劣化、協同不足和未充分利用。為了解決這些問題,我們提出了 JM3D,這是一種整合點雲、文本和圖像的整體方法。其創新包括結構化多模態組織器(SMO)和聯合多模態對齊(JMA),有效結合語言理解與視覺表示。我們的 JM3D-LLM 模型在多個數據集上表現優異,詳細資訊可在 https://github.com/Mr-Neko/JM3D 獲得。 PubMed DOI

這篇文件探討擴增實境(XR)的快速發展,並強調大型語言模型(LLMs)整合進XR系統的潛力。它提出三個主要支柱:感知與情境意識、知識建模與推理,以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處,同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究,目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

遠端視覺輔助(RSA)技術透過即時視訊連結視力障礙者與有視力的代理人,協助他們導航。研究發現使用者和代理人面臨四大挑戰:定位困難、環境解讀問題、情境資訊提供挑戰,以及網路不良影響。研究識別了15個導航挑戰,並提出10個新興問題,強調人類與人工智慧(AI)合作的重要性。隨著大型語言模型的發展,RSA與AI的整合有望提升視覺輔助技術的效能。 PubMed DOI