原始文章

這篇論文提出一套結合AI路線優化、知識圖譜決策、LLM對話助理及MR頭戴裝置的最後一哩配送系統,提升物流協作與資訊共享。原型已在義大利阿普利亞測試,證實可行性與效益,但也發現實務應用上的挑戰。 PubMed DOI


站上相關主題文章列表

這篇論文介紹了一個針對無人零售商店的綜合軟體服務框架,重點在於提升顧客服務,透過了解顧客需求和引導他們找到產品。我們運用視覺識別技術識別商品,並利用大型語言模型(LLMs)分析顧客偏好,提供量身訂做的推薦。 我們探討了基於深度神經網路的影像識別模型,並提出利用有限訓練數據微調LLMs的方法,提升參數更新效率。此外,智能推薦系統能自動分析顧客偏好,完善顧客到貨架的體驗。實驗結果顯示,我們的方法在有限數據集上表現優於現有技術,為顧客創造無縫的購物體驗。 PubMed DOI

NaviGPT是一個創新的導航系統,專為視覺障礙者設計,結合了LiDAR障礙物檢測、震動反饋和大型語言模型(LLMs)。與傳統解決方案需切換多個應用不同,NaviGPT提供即時的環境資訊,簡化使用者體驗,讓導航更有效率和直觀。此外,透過位置和感測器數據,NaviGPT能解決回應延遲問題,確保在各種環境中提供即時支援。 PubMed DOI

這篇文件探討擴增實境(XR)的快速發展,並強調大型語言模型(LLMs)整合進XR系統的潛力。它提出三個主要支柱:感知與情境意識、知識建模與推理,以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處,同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究,目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

遠端視覺輔助(RSA)技術透過即時視訊連結視力障礙者與有視力的代理人,協助他們導航。研究發現使用者和代理人面臨四大挑戰:定位困難、環境解讀問題、情境資訊提供挑戰,以及網路不良影響。研究識別了15個導航挑戰,並提出10個新興問題,強調人類與人工智慧(AI)合作的重要性。隨著大型語言模型的發展,RSA與AI的整合有望提升視覺輔助技術的效能。 PubMed DOI

大型語言模型(LLMs)如GPT-4與擴增實境(XR)技術結合,能創造沉浸式環境,並透過自然語言與使用者互動。不過,XR環境的複雜性使得提取上下文數據變得困難,導致成本上升和錯誤產生。為了解決這些問題,我們推出了LLMER框架,利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲,初步研究顯示其令牌消耗減少超過80%,任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

大型語言模型(LLMs)能理解和產生自然語言,正改變醫療、教育、金融等產業,提升效率和準確度。不過,LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制,並探討未來趨勢。 PubMed DOI

這篇論文介紹一套得獎的3D超擬真互動數位人系統,採用模組化客戶端-伺服器架構,結合LLM、語音辨識、自然語言處理和情感TTS技術。透過電腦圖學和AI,打造擬真3D虛擬人,目標是革新數位內容的製作和應用方式,並探討未來發展潛力。 PubMed DOI

大型語言模型正帶動材料科學革新,讓自動化材料發現成真,像是資料擷取、性質預測都更有效率。不過,目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度,才能讓這些技術在實際應用上更可靠、更公平。 PubMed DOI

這篇論文介紹一套語音超市助理系統,評比四種語音辨識工具,發現 OpenAI 的 Whisper 準確度最高。團隊還開發多LLM聊天機器人架構,使用體驗比單一GPT-4 Turbo更好,能把回應連結到貨架位置,方便機器人導航。結果顯示,結合多個專業模型比只用一個大型模型更有效。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI