Enhancing Robot Task Planning and Execution through Multi-Layer Large Language Models.
透過多層大型語言模型增強機器人任務規劃和執行。 Sensors (Basel) 2024-03-15

大型語言模型對機器人任務規劃有幫助，但執行任務時有困難。提出多層模型，逐層分解任務以改善處理。視覺語言模型可幫助環境感知，整合任務目標與環境數據，進行精確運動規劃。語義對齊方法可增強任務可執行性。無人載具實驗驗證了此方法對應機器人任務規劃與執行的有效應對。 PubMed DOI

Enhancing intention prediction and interpretability in service robots with LLM and KG.
利用大型語言模型和知識圖譜提升服務機器人的意圖預測和可解釋性。 Sci Rep 2024-11-06

隨著人工智慧的快速進步，服務機器人在日常生活中越來越普遍，這要求它們能準確識別人類意圖。現有方法在複雜環境中常常無法達標。為了解決這個問題，我們提出了一個基於大型語言模型和知識圖譜的意圖識別框架（LKIRF）。這個框架結合了大型語言模型和知識圖譜，提升了服務機器人的意圖識別能力。實驗結果顯示，LKIRF在各種場景中的預測準確性超越傳統方法，並增強了意圖推理的透明度和可解釋性。 PubMed DOI

A survey on multimodal large language models.
關於多模態大型語言模型的調查。 Natl Sci Rev 2024-12-16

這篇論文探討了多模態大型語言模型（MLLMs）的最新進展，特別是像GPT-4V這類結合語言處理與多模態任務的模型。作者強調了MLLMs的獨特能力，例如從圖像生成敘事及進行複雜推理，顯示出朝向人工通用智慧的潛力。論文提供了MLLMs的全面概述，包括架構、訓練策略和評估方法，並探討了增強其適應性的方法。此外，還討論了多模態幻覺等問題及未來研究方向，以提升MLLM的能力。 PubMed DOI

Integrating Vision and Olfaction via Multi-Modal LLM for Robotic Odor Source Localization.
透過多模態 LLM 整合視覺與嗅覺以進行機器人氣味來源定位。 Sensors (Basel) 2025-01-08

新提議的氣味來源定位（OSL）技術結合嗅覺和視覺感測器，提升移動機器人在複雜環境中定位氣味的能力。這個新算法利用大型語言模型（LLM）來處理感測器數據，並指導機器人導航。主要包括高階推理模組，將數據編碼成多模態提示，和低階行動模組，將導航決策轉化為具體行動指令。測試結果顯示，基於LLM的方法在成功率和搜尋時間上，明顯優於傳統方法，無論在何種氣流環境中。 PubMed DOI

Design and Implementation of an Interactive System for Service Robot Control and Monitoring.
服務機器人控制與監控的互動系統設計與實施。 Sensors (Basel) 2025-02-26

這個專案專注於為電動輪椅打造一個互動控制系統，使用機器人操作系統（ROS）。系統具備友善的網頁介面和由 Google Gemini 驅動的聊天機器人，提升用戶的控制與個性化體驗。主要方法包括： 1. **API 整合**：存取用戶偏好資料庫。 2. **臉部識別**：根據用戶身份調整回應。 3. **群體識別**：協助導航。 4. **自適應聊天機器人回應**：提供量身定制的互動。測試結果顯示，系統能根據用戶偏好調整輪椅行為，提升安全性與個性化導航，顯著改善使用者的自主性與生活品質。 PubMed DOI

A novel voice in head actor critic reinforcement learning with human feedback framework for enhanced robot navigation.
一種新穎的頭腦聲音演員評論家強化學習框架，結合人類反饋以增強機器人導航。 Sci Rep 2025-02-28

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架，利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs，並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能，讓使用者能用自然語言互動。為了確保安全性，系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%，顯示出在認知機器人技術上的重大進展。 PubMed DOI

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods.
大型語言模型增強強化學習的調查：概念、分類法與方法。 IEEE Trans Neural Netw Learn Syst 2025-03-03

這份調查探討大型語言模型（LLMs）與強化學習（RL）的整合，強調它們在多任務學習、樣本效率和高層次任務規劃等方面的潛力。作者將LLMs在RL中的角色分為四個功能：資訊處理者、獎勵設計者、決策者和生成器，並針對每個角色提出方法論和未來研究方向。這份調查旨在澄清研究領域，並提供框架，應用於機器人、自動駕駛和能源系統等領域，並討論LLMs增強RL的潛在應用與挑戰。 PubMed DOI

JM3D & JM3D-LLM: Elevating 3D Representation With Joint Multi-Modal Cues.
JM3D 與 JM3D-LLM：透過聯合多模態線索提升 3D 表現。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

3D 表示學習在計算機視覺、自動駕駛和機器人技術中越來越重要，但將 2D 對齊方法應用於 3D 數據面臨三大挑戰：資訊劣化、協同不足和未充分利用。為了解決這些問題，我們提出了 JM3D，這是一種整合點雲、文本和圖像的整體方法。其創新包括結構化多模態組織器（SMO）和聯合多模態對齊（JMA），有效結合語言理解與視覺表示。我們的 JM3D-LLM 模型在多個數據集上表現優異，詳細資訊可在 https://github.com/Mr-Neko/JM3D 獲得。 PubMed DOI

Next Generation XR Systems-Large Language Models Meet Augmented and Virtual Reality.
下一代 XR 系統 - 大型語言模型與擴增實境及虛擬實境的結合。 IEEE Comput Graph Appl 2025-03-06

這篇文件探討擴增實境（XR）的快速發展，並強調大型語言模型（LLMs）整合進XR系統的潛力。它提出三個主要支柱：感知與情境意識、知識建模與推理，以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處，同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究，目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

Human-AI Collaboration for Remote Sighted Assistance: Perspectives from the LLM Era.
人類與人工智慧合作進行遠程視覺輔助：來自大型語言模型時代的觀點。 Future Internet 2025-03-07

遠端視覺輔助（RSA）技術透過即時視訊連結視力障礙者與有視力的代理人，協助他們導航。研究發現使用者和代理人面臨四大挑戰：定位困難、環境解讀問題、情境資訊提供挑戰，以及網路不良影響。研究識別了15個導航挑戰，並提出10個新興問題，強調人類與人工智慧（AI）合作的重要性。隨著大型語言模型的發展，RSA與AI的整合有望提升視覺輔助技術的效能。 PubMed DOI

原始文章

站上相關主題文章列表