原始文章

GMM-Searcher 是一套讓機器人更聰明找東西的系統,結合大型語言模型、地圖和高斯混合模型,不只省記憶體,還能根據經驗學習。這方法讓機器人在大又會變動的環境裡,找東西更快、更有效率,還能一直進步,實驗結果也證明搜尋效率真的有提升。 PubMed DOI


站上相關主題文章列表

這篇論文介紹了一個針對無人零售商店的綜合軟體服務框架,重點在於提升顧客服務,透過了解顧客需求和引導他們找到產品。我們運用視覺識別技術識別商品,並利用大型語言模型(LLMs)分析顧客偏好,提供量身訂做的推薦。 我們探討了基於深度神經網路的影像識別模型,並提出利用有限訓練數據微調LLMs的方法,提升參數更新效率。此外,智能推薦系統能自動分析顧客偏好,完善顧客到貨架的體驗。實驗結果顯示,我們的方法在有限數據集上表現優於現有技術,為顧客創造無縫的購物體驗。 PubMed DOI

這篇論文提出一個系統,透過自然語言對話提升人機互動,讓機器人能夠從經驗中學習。系統利用大型語言模型(LLMs)協調機器人行為,生成Python程式碼來控制動作和感知,這些程式碼根據人類指令和環境反饋生成。當LLM誤解指令時,會調用另一個專注於改善程式碼的LLM來學習錯誤。改進的互動會儲存於機器人記憶中,未來能更好處理類似請求。該系統已整合進人形機器人ARMAR-6,並透過模擬和實測評估其有效性,顯示機器人能夠逐步學習並應用知識。 PubMed DOI

隨著人工智慧的快速進步,服務機器人在日常生活中越來越普遍,這要求它們能準確識別人類意圖。現有方法在複雜環境中常常無法達標。為了解決這個問題,我們提出了一個基於大型語言模型和知識圖譜的意圖識別框架(LKIRF)。這個框架結合了大型語言模型和知識圖譜,提升了服務機器人的意圖識別能力。實驗結果顯示,LKIRF在各種場景中的預測準確性超越傳統方法,並增強了意圖推理的透明度和可解釋性。 PubMed DOI

新提議的氣味來源定位(OSL)技術結合嗅覺和視覺感測器,提升移動機器人在複雜環境中定位氣味的能力。這個新算法利用大型語言模型(LLM)來處理感測器數據,並指導機器人導航。主要包括高階推理模組,將數據編碼成多模態提示,和低階行動模組,將導航決策轉化為具體行動指令。測試結果顯示,基於LLM的方法在成功率和搜尋時間上,明顯優於傳統方法,無論在何種氣流環境中。 PubMed DOI

這項研究提出了一種新方法,利用大型語言模型(LLMs)為機器人生成複雜的長期任務計畫。過去的研究多集中於簡單的任務規劃,動作指令通常不超過十個。新方法透過讓LLM主動收集資訊並進行問答,精煉任務計畫,並能識別和解決長期任務中的模糊性,增強計畫細節。研究以烹飪任務為例,實驗結果顯示,這種方法成功提升了任務計畫的資訊量,填補了長期機器人任務研究的空白。 PubMed DOI

大型語言模型(LLMs)如GPT-4與擴增實境(XR)技術結合,能創造沉浸式環境,並透過自然語言與使用者互動。不過,XR環境的複雜性使得提取上下文數據變得困難,導致成本上升和錯誤產生。為了解決這些問題,我們推出了LLMER框架,利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲,初步研究顯示其令牌消耗減少超過80%,任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

這篇論文提出用視覺大型語言模型(VLMs)自動從影像生成道路場景圖,能細緻捕捉交通場景的語意和物件關係。作者還設計了可擴充的場景屬性和圖形相似度量法,並建立了1000筆標註資料集。實驗證明,這方法能用文字、圖片或影片靈活檢索語意相似的交通場景,對自駕車應用很有幫助。 PubMed DOI

大型語言模型正帶動材料科學革新,讓自動化材料發現成真,像是資料擷取、性質預測都更有效率。不過,目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度,才能讓這些技術在實際應用上更可靠、更公平。 PubMed DOI

研究團隊開發的 ELLMER 機器人架構,結合 GPT-4 和檢索增強生成技術,讓機器人能適應變化多端的環境,執行像泡咖啡、擺盤等多步驟任務。透過力覺和視覺回饋,機器人的智慧和適應力大幅提升。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI