DynamicVLN: Incorporating Dynamics into Vision-and-Language Navigation Scenarios.
DynamicVLN: 將動態納入視覺與語言導航場景。 Sensors (Basel) 2025-01-25

動態視覺與語言導航（DynamicVLN）任務旨在改善傳統的視覺與語言導航（VLN），融入了如車輛移動、交通信號、行人活動和天氣變化等動態因素。這項新任務要求代理不僅要遵循指示，還需在面對突發事件時展現推理和適應能力。為此，研究者創建了十個動態導航場景，並利用CARLA模擬器和大型語言模型建立了包含11,261個實例的數據集，提供真實的訓練環境，並引入基準模型以提升導航能力，目標是開發能在複雜環境中運作的強大代理。 PubMed DOI

Design and Implementation of an Interactive System for Service Robot Control and Monitoring.
服務機器人控制與監控的互動系統設計與實施。 Sensors (Basel) 2025-02-26

這個專案專注於為電動輪椅打造一個互動控制系統，使用機器人操作系統（ROS）。系統具備友善的網頁介面和由 Google Gemini 驅動的聊天機器人，提升用戶的控制與個性化體驗。主要方法包括： 1. **API 整合**：存取用戶偏好資料庫。 2. **臉部識別**：根據用戶身份調整回應。 3. **群體識別**：協助導航。 4. **自適應聊天機器人回應**：提供量身定制的互動。測試結果顯示，系統能根據用戶偏好調整輪椅行為，提升安全性與個性化導航，顯著改善使用者的自主性與生活品質。 PubMed DOI

A novel voice in head actor critic reinforcement learning with human feedback framework for enhanced robot navigation.
一種新穎的頭腦聲音演員評論家強化學習框架，結合人類反饋以增強機器人導航。 Sci Rep 2025-02-28

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架，利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs，並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能，讓使用者能用自然語言互動。為了確保安全性，系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%，顯示出在認知機器人技術上的重大進展。 PubMed DOI

Human-AI Collaboration for Remote Sighted Assistance: Perspectives from the LLM Era.
人類與人工智慧合作進行遠程視覺輔助：來自大型語言模型時代的觀點。 Future Internet 2025-03-07

遠端視覺輔助（RSA）技術透過即時視訊連結視力障礙者與有視力的代理人，協助他們導航。研究發現使用者和代理人面臨四大挑戰：定位困難、環境解讀問題、情境資訊提供挑戰，以及網路不良影響。研究識別了15個導航挑戰，並提出10個新興問題，強調人類與人工智慧（AI）合作的重要性。隨著大型語言模型的發展，RSA與AI的整合有望提升視覺輔助技術的效能。 PubMed DOI

A Multiagent-Driven Robotic AI Chemist Enabling Autonomous Chemical Research On Demand.
一個多智能驅動的機器人AI化學家，實現按需自主化學研究。 J Am Chem Soc 2025-03-08

大型語言模型（LLMs）已經在實驗室工作流程中帶來了顯著進展，特別是在化學研究的自主化方面。本報告介紹了ChemAgents，這是一個由多代理系統和Llama-3.1-70B LLM驅動的機器人AI化學家。ChemAgents能在少量人類介入下執行複雜實驗，並協調文獻閱讀、實驗設計、計算執行和機器人操作等四個專門代理。系統在六個實驗任務中展現了其有效性，並成功在新機器人化學實驗室中自主進行光催化反應，顯示出其可擴展性和適應性，為化學研究的自主化鋪平道路。 PubMed DOI

Tiny Language Models for Automation and Control: Overview, Potential Applications, and Future Research Directions.
自動化與控制的小型語言模型：概述、潛在應用及未來研究方向。 Sensors (Basel) 2025-03-17

這篇論文全面探討微型語言模型（TLMs），這些模型是大型語言模型（LLMs）如GPT和BERT的緊湊替代品，專為資源有限的設備設計，如智慧型手機和物聯網系統。論文分析了TLMs的架構與方法，強調知識蒸餾、量化和剪枝等技術，提升效率與性能。還探討了TLMs在邊緣計算、工業自動化和醫療保健的應用，並面臨模型大小與準確性之間的權衡等挑戰。最後，建議未來研究方向，包括混合壓縮技術和針對特定硬體的上下文感知模型。 PubMed DOI

A Survey of Robotic Monocular Pose Estimation.
機器人單目姿態估計的調查。 Sensors (Basel) 2025-03-17

機器人單目姿態估計是神經網絡中的重要技術，結合了單目同時定位與地圖建構（SLAM）和單視角物體姿態估計（OPE）。這些技術的核心包括深度預測網絡、語意理解、神經隱式表示和大型語言模型（LLMs）。若能開發出一個完整的單目姿態估計系統，將大幅提升機器人的實際能力。未來的研究可能會著重於提高準確性和效率，並探討這些技術在實際應用中的整合可能性。 PubMed DOI

Vision-Based Learning for Drones: A Survey.
無人機視覺型學習之綜述 IEEE Trans Neural Netw Learn Syst 2025-05-06

這篇文章介紹視覺型無人機學習，說明其如何提升無人機自主性與操作能力，並分類各種視覺控制方法。內容涵蓋單機到多機協作應用，討論現有挑戰、創新與未來發展。特別指出，隨著大型語言模型和具身智能進步，視覺學習有望讓無人機更接近通用人工智慧。 PubMed DOI

The Multi-Agentization of a Dual-Arm Nursing Robot Based on Large Language Models.
基於大型語言模型的雙臂護理機器人多智能體化 Bioengineering (Basel) 2025-05-28

**重點摘要：** 這項研究把護理機器人的每隻手臂都當作獨立的代理人，並結合幾何限制和大型語言模型，讓機器人能更好地協調動作、規劃任務，進而提升護理工作的效率和準確性，讓護理照護變得更有效率也更到位。 PubMed DOI

原始文章

站上相關主題文章列表