原始文章

這篇論文介紹了仿人型機器人Alter3,結合GPT-4後,能把語言指令直接轉換成動作。只要少量範例,機器人就能學新姿勢,還能根據語言回饋調整行為,展現語言理解與機器人控制的重大進展。 PubMed DOI


站上相關主題文章列表

Anatomy3DExplorer 是一個專為探索 3D 解剖模型設計的 ChatGPT 版本,提供自然語言介面。這篇論文強調大型語言模型(LLMs)在讓用戶輕鬆訪問數據庫方面的有效性,並展示如何利用 GPTS 框架將 LLMs 與數據庫 API 無縫整合,提出一種簡單卻具潛力的方法,增強用戶與複雜數據的互動體驗。 PubMed DOI

大型語言模型(LLMs)與人形機器人的結合,能顯著提升機器人透過自然互動學習的能力。首先,LLMs幫助機器人理解人類語言,促進更流暢的互動。其次,機器人能透過對話學習情境行為,並根據反饋調整行動。此外,LLMs提供社交知識,幫助機器人理解情感與社交規範。它們還能作為知識庫,讓機器人動態學習新概念。最後,透過模擬與角色扮演,機器人能在安全環境中練習複雜的社交互動。 PubMed DOI

大型語言模型(LLMs)如GPT-4與擴增實境(XR)技術結合,能創造沉浸式環境,並透過自然語言與使用者互動。不過,XR環境的複雜性使得提取上下文數據變得困難,導致成本上升和錯誤產生。為了解決這些問題,我們推出了LLMER框架,利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲,初步研究顯示其令牌消耗減少超過80%,任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

這篇論文介紹一套得獎的3D超擬真互動數位人系統,採用模組化客戶端-伺服器架構,結合LLM、語音辨識、自然語言處理和情感TTS技術。透過電腦圖學和AI,打造擬真3D虛擬人,目標是革新數位內容的製作和應用方式,並探討未來發展潛力。 PubMed DOI

這項研究開發出一套結合 ChatGPT-4 的認知型機器人架構,能模擬人類個性、情緒、動機、注意力和記憶。機器人可處理文字和影像,並根據設定的個性回應,還能用文件嵌入技術實現長期記憶。個性模擬參考心理學理論,並用 Big Five 測驗驗證。Mobi 機器人展現出先進的心智理論,能靈活應對社交互動,對話自然又有意圖。 PubMed DOI

研究團隊開發的 ELLMER 機器人架構,結合 GPT-4 和檢索增強生成技術,讓機器人能適應變化多端的環境,執行像泡咖啡、擺盤等多步驟任務。透過力覺和視覺回饋,機器人的智慧和適應力大幅提升。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

作者提出一種輕量化方法,讓社交型機器人能同時產生文字和高層次手勢,且不需大量運算或細緻動作數據。這方法用「gesture heads」模組,能根據語言模型預測意圖,再轉換成各機器人專屬的表現方式。此技術適合小型或本地端模型,易於移植,適用於資源有限或重視隱私的場景。 PubMed DOI

這項研究發現,民眾首次接觸由ChatGPT驅動的人形機器人Pepper時,對其外觀和動作有各種情緒反應,也對社交互動和包容性有疑慮。結果顯示,人機互動受複雜的社會與情感因素影響,未來隨著社交型機器人普及,真實場域的研究會越來越重要。 PubMed DOI

LLMs 只靠語言就能學到像人類一樣的抽象概念,但在感官和動作相關的概念上,跟人類還是有落差。加入視覺等多感官訓練後,LLMs 在這些領域的表現會更接近人類。這說明多感官經驗對 LLMs 形成完整人類概念很重要。 PubMed DOI