原始文章

作者提出一種輕量化方法,讓社交型機器人能同時產生文字和高層次手勢,且不需大量運算或細緻動作數據。這方法用「gesture heads」模組,能根據語言模型預測意圖,再轉換成各機器人專屬的表現方式。此技術適合小型或本地端模型,易於移植,適用於資源有限或重視隱私的場景。 PubMed DOI


站上相關主題文章列表

這篇論文提出一個系統,透過自然語言對話提升人機互動,讓機器人能夠從經驗中學習。系統利用大型語言模型(LLMs)協調機器人行為,生成Python程式碼來控制動作和感知,這些程式碼根據人類指令和環境反饋生成。當LLM誤解指令時,會調用另一個專注於改善程式碼的LLM來學習錯誤。改進的互動會儲存於機器人記憶中,未來能更好處理類似請求。該系統已整合進人形機器人ARMAR-6,並透過模擬和實測評估其有效性,顯示機器人能夠逐步學習並應用知識。 PubMed DOI

這篇論文介紹了SpeakFaster,一個創新的輔助與替代溝通(AAC)介面,利用大型語言模型(LLMs)來提升文字輸入效率。使用者可以以簡化方式輸入文字,減少57%的動作需求,這在離線模擬中得到證實。針對19位非AAC參與者的初步研究顯示,打字速度影響不大。對兩位因肌萎縮側索硬化症的用戶進行的測試顯示,文字輸入速度提升29%至60%。這些結果顯示LLM在AAC及其他介面中的應用前景廣闊。 PubMed DOI

這個對話系統的目的是改善機器人與孩子的互動,透過更好地理解孩子獨特的語言特徵,如不完整句子和發音錯誤。現有的大型語言模型在解讀孩子意圖時不如人類準確,因此系統採用微調方法,利用人類對孩子回應的判斷差異來訓練。這樣一來,系統能更自然地理解孩子的語言,並進行適應性的對話。其有效性透過機器人社交屬性量表和合理性指標進行評估,顯示能理解並回應孩子的話語。 PubMed DOI

大型語言模型(LLMs)如GPT-4與擴增實境(XR)技術結合,能創造沉浸式環境,並透過自然語言與使用者互動。不過,XR環境的複雜性使得提取上下文數據變得困難,導致成本上升和錯誤產生。為了解決這些問題,我們推出了LLMER框架,利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲,初步研究顯示其令牌消耗減少超過80%,任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

這篇論文介紹一套得獎的3D超擬真互動數位人系統,採用模組化客戶端-伺服器架構,結合LLM、語音辨識、自然語言處理和情感TTS技術。透過電腦圖學和AI,打造擬真3D虛擬人,目標是革新數位內容的製作和應用方式,並探討未來發展潛力。 PubMed DOI

這項研究開發出一套結合 ChatGPT-4 的認知型機器人架構,能模擬人類個性、情緒、動機、注意力和記憶。機器人可處理文字和影像,並根據設定的個性回應,還能用文件嵌入技術實現長期記憶。個性模擬參考心理學理論,並用 Big Five 測驗驗證。Mobi 機器人展現出先進的心智理論,能靈活應對社交互動,對話自然又有意圖。 PubMed DOI

研究團隊開發的 ELLMER 機器人架構,結合 GPT-4 和檢索增強生成技術,讓機器人能適應變化多端的環境,執行像泡咖啡、擺盤等多步驟任務。透過力覺和視覺回饋,機器人的智慧和適應力大幅提升。 PubMed DOI

**重點摘要:** 這項研究把護理機器人的每隻手臂都當作獨立的代理人,並結合幾何限制和大型語言模型,讓機器人能更好地協調動作、規劃任務,進而提升護理工作的效率和準確性,讓護理照護變得更有效率也更到位。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

這篇論文介紹了仿人型機器人Alter3,結合GPT-4後,能把語言指令直接轉換成動作。只要少量範例,機器人就能學新姿勢,還能根據語言回饋調整行為,展現語言理解與機器人控制的重大進展。 PubMed DOI