原始文章

這篇論文回顧了不同自主程度的移動操控器的研究,強調它們在危險環境中的應用,特別是在退役場地和搜救行動中。現有系統多依賴人機協作,無法完全自主,面臨安全性和可靠性挑戰。文中指出可變自主性(Variable Autonomy)相關的研究空白,並建議未來可開發全身可變自主性、使用虛擬實境框架,以及整合大型語言模型,以減輕操作員在複雜情況下的負擔。 PubMed DOI


站上相關主題文章列表

動態視覺與語言導航(DynamicVLN)任務旨在改善傳統的視覺與語言導航(VLN),融入了如車輛移動、交通信號、行人活動和天氣變化等動態因素。這項新任務要求代理不僅要遵循指示,還需在面對突發事件時展現推理和適應能力。為此,研究者創建了十個動態導航場景,並利用CARLA模擬器和大型語言模型建立了包含11,261個實例的數據集,提供真實的訓練環境,並引入基準模型以提升導航能力,目標是開發能在複雜環境中運作的強大代理。 PubMed DOI

這個專案專注於為電動輪椅打造一個互動控制系統,使用機器人操作系統(ROS)。系統具備友善的網頁介面和由 Google Gemini 驅動的聊天機器人,提升用戶的控制與個性化體驗。 主要方法包括: 1. **API 整合**:存取用戶偏好資料庫。 2. **臉部識別**:根據用戶身份調整回應。 3. **群體識別**:協助導航。 4. **自適應聊天機器人回應**:提供量身定制的互動。 測試結果顯示,系統能根據用戶偏好調整輪椅行為,提升安全性與個性化導航,顯著改善使用者的自主性與生活品質。 PubMed DOI

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架,利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs,並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能,讓使用者能用自然語言互動。為了確保安全性,系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%,顯示出在認知機器人技術上的重大進展。 PubMed DOI

遠端視覺輔助(RSA)技術透過即時視訊連結視力障礙者與有視力的代理人,協助他們導航。研究發現使用者和代理人面臨四大挑戰:定位困難、環境解讀問題、情境資訊提供挑戰,以及網路不良影響。研究識別了15個導航挑戰,並提出10個新興問題,強調人類與人工智慧(AI)合作的重要性。隨著大型語言模型的發展,RSA與AI的整合有望提升視覺輔助技術的效能。 PubMed DOI

大型語言模型(LLMs)已經在實驗室工作流程中帶來了顯著進展,特別是在化學研究的自主化方面。本報告介紹了ChemAgents,這是一個由多代理系統和Llama-3.1-70B LLM驅動的機器人AI化學家。ChemAgents能在少量人類介入下執行複雜實驗,並協調文獻閱讀、實驗設計、計算執行和機器人操作等四個專門代理。系統在六個實驗任務中展現了其有效性,並成功在新機器人化學實驗室中自主進行光催化反應,顯示出其可擴展性和適應性,為化學研究的自主化鋪平道路。 PubMed DOI

這篇論文全面探討微型語言模型(TLMs),這些模型是大型語言模型(LLMs)如GPT和BERT的緊湊替代品,專為資源有限的設備設計,如智慧型手機和物聯網系統。論文分析了TLMs的架構與方法,強調知識蒸餾、量化和剪枝等技術,提升效率與性能。還探討了TLMs在邊緣計算、工業自動化和醫療保健的應用,並面臨模型大小與準確性之間的權衡等挑戰。最後,建議未來研究方向,包括混合壓縮技術和針對特定硬體的上下文感知模型。 PubMed DOI

機器人單目姿態估計是神經網絡中的重要技術,結合了單目同時定位與地圖建構(SLAM)和單視角物體姿態估計(OPE)。這些技術的核心包括深度預測網絡、語意理解、神經隱式表示和大型語言模型(LLMs)。若能開發出一個完整的單目姿態估計系統,將大幅提升機器人的實際能力。未來的研究可能會著重於提高準確性和效率,並探討這些技術在實際應用中的整合可能性。 PubMed DOI

這篇文章介紹視覺型無人機學習,說明其如何提升無人機自主性與操作能力,並分類各種視覺控制方法。內容涵蓋單機到多機協作應用,討論現有挑戰、創新與未來發展。特別指出,隨著大型語言模型和具身智能進步,視覺學習有望讓無人機更接近通用人工智慧。 PubMed DOI

**重點摘要:** 這項研究把護理機器人的每隻手臂都當作獨立的代理人,並結合幾何限制和大型語言模型,讓機器人能更好地協調動作、規劃任務,進而提升護理工作的效率和準確性,讓護理照護變得更有效率也更到位。 PubMed DOI