原始文章

這篇論文介紹了仿人型機器人Alter3,結合GPT-4後,能把語言指令直接轉換成動作。只要少量範例,機器人就能學新姿勢,還能根據語言回饋調整行為,展現語言理解與機器人控制的重大進展。 PubMed DOI


站上相關主題文章列表

Teriyaki是一個結合象徵性任務規劃和機器學習的框架,利用像GPT-3這樣的大型語言模型。這個方法旨在解決動態人機協作中的問題,透過逐步生成計劃行動提高效率,同時達成規劃和執行。初步結果顯示有希望的成果,包括更高的問題解決率、更短的計劃時間,以及縮短計劃可用性等待時間。 PubMed DOI

研究探討了低成本虛擬逃脫遊戲中使用GPT人工智慧語言模型的可行性。結果顯示GPT透過語音互動能幫助解決虛擬實境中的邏輯挑戰,使用者對其協助給予正面回饋,但也指出處理複雜挑戰的限制。研究提出GPT在解決問題中有潛力,但在拼圖難度和情境理解方面仍有改進空間。這項研究討論了整合GPT等人工智慧模型在虛擬遊戲中的機會和挑戰,為未來發展提供了洞察。 PubMed DOI

這篇論文探討大型語言模型(LLMs),如OpenAI的GPT-4,所展現的突現特性,特別是它們被認為的智慧與意識。作者指出,對這些特性的定義不夠清晰,且模型內部推理存在缺陷。智能系統的關鍵在於對環境的反應,這可從行為中推斷。透過哲學現象學和認知生態學,論文分析了GPT-4的錯誤,認為其缺乏人類的時間意識,導致無法形成穩定的感知世界。最終,作者認為GPT-4與使用者共同創造虛構敘事,而非真正理解或擁有意識。 PubMed DOI

在人機互動中,準確理解人類意圖對機器人執行任務非常重要。傳統方法需大量訓練來調整機器人行為,而本研究提出的ExTraCT框架,則利用自然語言來修改機器人的軌跡,無需為每個新場景重新訓練。ExTraCT將語言理解與軌跡修改分開,並利用大型語言模型進行語義對齊,提升了適應性和準確性。在模擬和實體機器人研究中,ExTraCT的表現優於基準方法,並提供更具可解釋性的結果,適用於多種人機互動應用。 PubMed DOI

這篇論文提出一個系統,透過自然語言對話提升人機互動,讓機器人能夠從經驗中學習。系統利用大型語言模型(LLMs)協調機器人行為,生成Python程式碼來控制動作和感知,這些程式碼根據人類指令和環境反饋生成。當LLM誤解指令時,會調用另一個專注於改善程式碼的LLM來學習錯誤。改進的互動會儲存於機器人記憶中,未來能更好處理類似請求。該系統已整合進人形機器人ARMAR-6,並透過模擬和實測評估其有效性,顯示機器人能夠逐步學習並應用知識。 PubMed DOI

大型語言模型(LLMs)與人形機器人的結合,能顯著提升機器人透過自然互動學習的能力。首先,LLMs幫助機器人理解人類語言,促進更流暢的互動。其次,機器人能透過對話學習情境行為,並根據反饋調整行動。此外,LLMs提供社交知識,幫助機器人理解情感與社交規範。它們還能作為知識庫,讓機器人動態學習新概念。最後,透過模擬與角色扮演,機器人能在安全環境中練習複雜的社交互動。 PubMed DOI

這篇論文介紹一套得獎的3D超擬真互動數位人系統,採用模組化客戶端-伺服器架構,結合LLM、語音辨識、自然語言處理和情感TTS技術。透過電腦圖學和AI,打造擬真3D虛擬人,目標是革新數位內容的製作和應用方式,並探討未來發展潛力。 PubMed DOI

這項研究開發出一套結合 ChatGPT-4 的認知型機器人架構,能模擬人類個性、情緒、動機、注意力和記憶。機器人可處理文字和影像,並根據設定的個性回應,還能用文件嵌入技術實現長期記憶。個性模擬參考心理學理論,並用 Big Five 測驗驗證。Mobi 機器人展現出先進的心智理論,能靈活應對社交互動,對話自然又有意圖。 PubMed DOI

研究團隊開發的 ELLMER 機器人架構,結合 GPT-4 和檢索增強生成技術,讓機器人能適應變化多端的環境,執行像泡咖啡、擺盤等多步驟任務。透過力覺和視覺回饋,機器人的智慧和適應力大幅提升。 PubMed DOI

作者提出一種輕量化方法,讓社交型機器人能同時產生文字和高層次手勢,且不需大量運算或細緻動作數據。這方法用「gesture heads」模組,能根據語言模型預測意圖,再轉換成各機器人專屬的表現方式。此技術適合小型或本地端模型,易於移植,適用於資源有限或重視隱私的場景。 PubMed DOI