原始文章

這篇論文介紹了一個針對無人零售商店的綜合軟體服務框架,重點在於提升顧客服務,透過了解顧客需求和引導他們找到產品。我們運用視覺識別技術識別商品,並利用大型語言模型(LLMs)分析顧客偏好,提供量身訂做的推薦。 我們探討了基於深度神經網路的影像識別模型,並提出利用有限訓練數據微調LLMs的方法,提升參數更新效率。此外,智能推薦系統能自動分析顧客偏好,完善顧客到貨架的體驗。實驗結果顯示,我們的方法在有限數據集上表現優於現有技術,為顧客創造無縫的購物體驗。 PubMed DOI


站上相關主題文章列表

隨著城市成為人類活動的核心,城市感知的重要性日益提升。大型語言模型(LLMs)透過其語言框架,為城市感知帶來新機會。本文探討LLMs在理解城市機制上的潛力,重點在於改善人類與LLMs的知識轉移、提升對城市運作的認識,以及透過LLM代理實現自動化決策。雖然LLMs能提供更深入的城市動態理解,但也面臨多模態數據整合、時空推理、文化適應性和隱私等挑戰。未來的城市感知需善用LLMs的智慧,並克服這些挑戰,以促進智能和可持續的城市發展。 PubMed DOI

傳統的食物推薦系統在面對多樣化和不平衡的數據時,常常遇到樣本數不足的問題。雖然大型語言模型(LLMs)提供了一個有潛力的解決方案,但現有的通用推薦方法並不適合食物推薦。為了解決這個問題,我們提出了食物推薦作為語言處理(FRLP)的框架,專門設計來利用LLMs的優勢,提供更準確且個性化的食物推薦,並針對食物領域的獨特挑戰進行優化。 PubMed DOI

這篇文章探討了多模態推薦系統的最新進展,這些系統結合文本、圖像和用戶對話等多種數據。文章指出兩大挑戰:用戶需求的複雜性和高品質數據集的不足,尤其在互動場景中。提出的解決方案結合多模態技術與大型語言模型(LLMs),提升用戶互動和推薦準確性。關鍵技術包括交叉注意力機制、多圖神經網絡和自我反思機制。實驗結果顯示,這些模型在準確率和召回率上超越現有方法,並在視覺問答任務中表現優異,顯示出其實際應用潛力。 PubMed DOI

這項研究介紹了一種新的個人化大型語言模型(PLLM)代理,旨在提升大型語言模型在人體與機器人及人機互動中的整合能力。雖然現有研究多集中於技術層面,但在適應個別用戶情境上仍面臨挑戰。我們提出利用特定領域數據來個人化模型,並透過NeuroSense EEG數據集進行驗證。研究結果顯示,PLLM在醫療、教育及輔助技術等領域具有效用,並探討了相關的倫理考量,如數據隱私問題。這標誌著人工智慧在適應性和個人化上的重要進展。 PubMed DOI

大型語言模型(LLMs)能理解和產生自然語言,正改變醫療、教育、金融等產業,提升效率和準確度。不過,LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制,並探討未來趨勢。 PubMed DOI

這篇論文介紹一套得獎的3D超擬真互動數位人系統,採用模組化客戶端-伺服器架構,結合LLM、語音辨識、自然語言處理和情感TTS技術。透過電腦圖學和AI,打造擬真3D虛擬人,目標是革新數位內容的製作和應用方式,並探討未來發展潛力。 PubMed DOI

這篇論文提出一套結合AI路線優化、知識圖譜決策、LLM對話助理及MR頭戴裝置的最後一哩配送系統,提升物流協作與資訊共享。原型已在義大利阿普利亞測試,證實可行性與效益,但也發現實務應用上的挑戰。 PubMed DOI

這篇論文介紹一套語音超市助理系統,評比四種語音辨識工具,發現 OpenAI 的 Whisper 準確度最高。團隊還開發多LLM聊天機器人架構,使用體驗比單一GPT-4 Turbo更好,能把回應連結到貨架位置,方便機器人導航。結果顯示,結合多個專業模型比只用一個大型模型更有效。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

這篇論文提出一套以使用者為核心的分散式AI影像生成服務架構,利用生成式擴散模型(GDMs),讓用戶能共享部分生成流程,提升效率。作者還結合大型語言模型與強化學習,模擬用戶回饋,優化主觀體驗品質(QoE)。新演算法G-DDPG能根據用戶偏好和網路狀況有效分配資源,模擬結果顯示QoE提升約15%。 PubMed DOI