原始文章

研究團隊開發的 ELLMER 機器人架構,結合 GPT-4 和檢索增強生成技術,讓機器人能適應變化多端的環境,執行像泡咖啡、擺盤等多步驟任務。透過力覺和視覺回饋,機器人的智慧和適應力大幅提升。 PubMed DOI


站上相關主題文章列表

Teriyaki是一個結合象徵性任務規劃和機器學習的框架,利用像GPT-3這樣的大型語言模型。這個方法旨在解決動態人機協作中的問題,透過逐步生成計劃行動提高效率,同時達成規劃和執行。初步結果顯示有希望的成果,包括更高的問題解決率、更短的計劃時間,以及縮短計劃可用性等待時間。 PubMed DOI

這篇論文提出一個系統,透過自然語言對話提升人機互動,讓機器人能夠從經驗中學習。系統利用大型語言模型(LLMs)協調機器人行為,生成Python程式碼來控制動作和感知,這些程式碼根據人類指令和環境反饋生成。當LLM誤解指令時,會調用另一個專注於改善程式碼的LLM來學習錯誤。改進的互動會儲存於機器人記憶中,未來能更好處理類似請求。該系統已整合進人形機器人ARMAR-6,並透過模擬和實測評估其有效性,顯示機器人能夠逐步學習並應用知識。 PubMed DOI

隨著人工智慧的快速進步,服務機器人在日常生活中越來越普遍,這要求它們能準確識別人類意圖。現有方法在複雜環境中常常無法達標。為了解決這個問題,我們提出了一個基於大型語言模型和知識圖譜的意圖識別框架(LKIRF)。這個框架結合了大型語言模型和知識圖譜,提升了服務機器人的意圖識別能力。實驗結果顯示,LKIRF在各種場景中的預測準確性超越傳統方法,並增強了意圖推理的透明度和可解釋性。 PubMed DOI

大型語言模型(LLMs)與人形機器人的結合,能顯著提升機器人透過自然互動學習的能力。首先,LLMs幫助機器人理解人類語言,促進更流暢的互動。其次,機器人能透過對話學習情境行為,並根據反饋調整行動。此外,LLMs提供社交知識,幫助機器人理解情感與社交規範。它們還能作為知識庫,讓機器人動態學習新概念。最後,透過模擬與角色扮演,機器人能在安全環境中練習複雜的社交互動。 PubMed DOI

這項研究提出了一種新方法,利用大型語言模型(LLMs)為機器人生成複雜的長期任務計畫。過去的研究多集中於簡單的任務規劃,動作指令通常不超過十個。新方法透過讓LLM主動收集資訊並進行問答,精煉任務計畫,並能識別和解決長期任務中的模糊性,增強計畫細節。研究以烹飪任務為例,實驗結果顯示,這種方法成功提升了任務計畫的資訊量,填補了長期機器人任務研究的空白。 PubMed DOI

大型語言模型(LLMs)如GPT-4與擴增實境(XR)技術結合,能創造沉浸式環境,並透過自然語言與使用者互動。不過,XR環境的複雜性使得提取上下文數據變得困難,導致成本上升和錯誤產生。為了解決這些問題,我們推出了LLMER框架,利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲,初步研究顯示其令牌消耗減少超過80%,任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

大型語言模型正帶動材料科學革新,讓自動化材料發現成真,像是資料擷取、性質預測都更有效率。不過,目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度,才能讓這些技術在實際應用上更可靠、更公平。 PubMed DOI

這項研究開發出一套結合 ChatGPT-4 的認知型機器人架構,能模擬人類個性、情緒、動機、注意力和記憶。機器人可處理文字和影像,並根據設定的個性回應,還能用文件嵌入技術實現長期記憶。個性模擬參考心理學理論,並用 Big Five 測驗驗證。Mobi 機器人展現出先進的心智理論,能靈活應對社交互動,對話自然又有意圖。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

這篇論文介紹了仿人型機器人Alter3,結合GPT-4後,能把語言指令直接轉換成動作。只要少量範例,機器人就能學新姿勢,還能根據語言回饋調整行為,展現語言理解與機器人控制的重大進展。 PubMed DOI