Smart customer service in unmanned retail store enhanced by large language model.
大型語言模型增強無人零售店的智慧客服。 Sci Rep 2024-08-27

這篇論文介紹了一個針對無人零售商店的綜合軟體服務框架，重點在於提升顧客服務，透過了解顧客需求和引導他們找到產品。我們運用視覺識別技術識別商品，並利用大型語言模型（LLMs）分析顧客偏好，提供量身訂做的推薦。我們探討了基於深度神經網路的影像識別模型，並提出利用有限訓練數據微調LLMs的方法，提升參數更新效率。此外，智能推薦系統能自動分析顧客偏好，完善顧客到貨架的體驗。實驗結果顯示，我們的方法在有限數據集上表現優於現有技術，為顧客創造無縫的購物體驗。 PubMed DOI

Incremental learning of humanoid robot behavior from natural interaction and large language models.
從自然互動和大型語言模型中增量學習人形機器人行為。 Front Robot AI 2024-10-25

這篇論文提出一個系統，透過自然語言對話提升人機互動，讓機器人能夠從經驗中學習。系統利用大型語言模型（LLMs）協調機器人行為，生成Python程式碼來控制動作和感知，這些程式碼根據人類指令和環境反饋生成。當LLM誤解指令時，會調用另一個專注於改善程式碼的LLM來學習錯誤。改進的互動會儲存於機器人記憶中，未來能更好處理類似請求。該系統已整合進人形機器人ARMAR-6，並透過模擬和實測評估其有效性，顯示機器人能夠逐步學習並應用知識。 PubMed DOI

Enhancing intention prediction and interpretability in service robots with LLM and KG.
利用大型語言模型和知識圖譜提升服務機器人的意圖預測和可解釋性。 Sci Rep 2024-11-06

隨著人工智慧的快速進步，服務機器人在日常生活中越來越普遍，這要求它們能準確識別人類意圖。現有方法在複雜環境中常常無法達標。為了解決這個問題，我們提出了一個基於大型語言模型和知識圖譜的意圖識別框架（LKIRF）。這個框架結合了大型語言模型和知識圖譜，提升了服務機器人的意圖識別能力。實驗結果顯示，LKIRF在各種場景中的預測準確性超越傳統方法，並增強了意圖推理的透明度和可解釋性。 PubMed DOI

Integrating Vision and Olfaction via Multi-Modal LLM for Robotic Odor Source Localization.
透過多模態 LLM 整合視覺與嗅覺以進行機器人氣味來源定位。 Sensors (Basel) 2025-01-08

新提議的氣味來源定位（OSL）技術結合嗅覺和視覺感測器，提升移動機器人在複雜環境中定位氣味的能力。這個新算法利用大型語言模型（LLM）來處理感測器數據，並指導機器人導航。主要包括高階推理模組，將數據編碼成多模態提示，和低階行動模組，將導航決策轉化為具體行動指令。測試結果顯示，基於LLM的方法在成功率和搜尋時間上，明顯優於傳統方法，無論在何種氣流環境中。 PubMed DOI

Enhancement of long-horizon task planning via active and passive modification in large language models.
透過主動與被動修改增強大型語言模型的長期任務規劃。 Sci Rep 2025-02-27

這項研究提出了一種新方法，利用大型語言模型（LLMs）為機器人生成複雜的長期任務計畫。過去的研究多集中於簡單的任務規劃，動作指令通常不超過十個。新方法透過讓LLM主動收集資訊並進行問答，精煉任務計畫，並能識別和解決長期任務中的模糊性，增強計畫細節。研究以烹飪任務為例，實驗結果顯示，這種方法成功提升了任務計畫的資訊量，填補了長期機器人任務研究的空白。 PubMed DOI

LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models.
LLMER：利用大型語言模型生成的 JSON 數據創建互動擴展現實世界。 IEEE Trans Vis Comput Graph 2025-03-10

大型語言模型（LLMs）如GPT-4與擴增實境（XR）技術結合，能創造沉浸式環境，並透過自然語言與使用者互動。不過，XR環境的複雜性使得提取上下文數據變得困難，導致成本上升和錯誤產生。為了解決這些問題，我們推出了LLMER框架，利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲，初步研究顯示其令牌消耗減少超過80%，任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

Query by Example: Semantic Traffic Scene Retrieval Using LLM-Based Scene Graph Representation.
以範例查詢：使用基於大型語言模型（LLM）的場景圖表示進行語意交通場景檢索 Sensors (Basel) 2025-04-26

這篇論文提出用視覺大型語言模型（VLMs）自動從影像生成道路場景圖，能細緻捕捉交通場景的語意和物件關係。作者還設計了可擴充的場景屬性和圖形相似度量法，並建立了1000筆標註資料集。實驗證明，這方法能用文字、圖片或影片靈活檢索語意相似的交通場景，對自駕車應用很有幫助。 PubMed DOI

Empowering Generalist Material Intelligence with Large Language Models.
以大型語言模型賦能通用材料智能 Adv Mater 2025-05-12

大型語言模型正帶動材料科學革新，讓自動化材料發現成真，像是資料擷取、性質預測都更有效率。不過，目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度，才能讓這些技術在實際應用上更可靠、更公平。 PubMed DOI

Embodied large language models enable robots to complete complex tasks in unpredictable environments.
具身大型語言模型使機器人在不可預測環境中完成複雜任務 Nat Mach Intell 2025-05-20

研究團隊開發的 ELLMER 機器人架構，結合 GPT-4 和檢索增強生成技術，讓機器人能適應變化多端的環境，執行像泡咖啡、擺盤等多步驟任務。透過力覺和視覺回饋，機器人的智慧和適應力大幅提升。 PubMed DOI

A Multimodal Large Language Model Framework for Intelligent Perception and Decision-Making in Smart Manufacturing.
智慧製造中用於智能感知與決策的多模態大型語言模型框架 Sensors (Basel) 2025-05-28

這篇論文提出一套多模態系統，能整合影像、感測器數據和生產紀錄，並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力，採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成，提升即時決策。實驗證明，這方法在影像-文字檢索和視覺問答等任務表現優異，對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

原始文章

站上相關主題文章列表