原始文章

這篇論文提出一套結合AI路線優化、知識圖譜決策、LLM對話助理及MR頭戴裝置的最後一哩配送系統,提升物流協作與資訊共享。原型已在義大利阿普利亞測試,證實可行性與效益,但也發現實務應用上的挑戰。 PubMed DOI


站上相關主題文章列表

這篇論文提出一種新方法,利用大型語言模型(LLMs)、AI代理和開放地理數據,提升城市騎乘安全。方法包括分析城市風險和現有騎乘設施的數據,並透過數據預處理和提示工程,創建友好的系統,提供騎乘安全見解。過程分為數據準備、代理協調和決策執行三步,確保開源工具有效整合,促進城市規劃者和騎士的可及性。研究顯示結合LLMs和AI代理的潛力,能改善騎乘實踐和城市交通規劃。 PubMed DOI

這篇論文介紹了一個針對無人零售商店的綜合軟體服務框架,重點在於提升顧客服務,透過了解顧客需求和引導他們找到產品。我們運用視覺識別技術識別商品,並利用大型語言模型(LLMs)分析顧客偏好,提供量身訂做的推薦。 我們探討了基於深度神經網路的影像識別模型,並提出利用有限訓練數據微調LLMs的方法,提升參數更新效率。此外,智能推薦系統能自動分析顧客偏好,完善顧客到貨架的體驗。實驗結果顯示,我們的方法在有限數據集上表現優於現有技術,為顧客創造無縫的購物體驗。 PubMed DOI

隨著人工智慧的快速進步,服務機器人在日常生活中越來越普遍,這要求它們能準確識別人類意圖。現有方法在複雜環境中常常無法達標。為了解決這個問題,我們提出了一個基於大型語言模型和知識圖譜的意圖識別框架(LKIRF)。這個框架結合了大型語言模型和知識圖譜,提升了服務機器人的意圖識別能力。實驗結果顯示,LKIRF在各種場景中的預測準確性超越傳統方法,並增強了意圖推理的透明度和可解釋性。 PubMed DOI

NaviGPT是一個創新的導航系統,專為視覺障礙者設計,結合了LiDAR障礙物檢測、震動反饋和大型語言模型(LLMs)。與傳統解決方案需切換多個應用不同,NaviGPT提供即時的環境資訊,簡化使用者體驗,讓導航更有效率和直觀。此外,透過位置和感測器數據,NaviGPT能解決回應延遲問題,確保在各種環境中提供即時支援。 PubMed DOI

這篇文件探討擴增實境(XR)的快速發展,並強調大型語言模型(LLMs)整合進XR系統的潛力。它提出三個主要支柱:感知與情境意識、知識建模與推理,以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處,同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究,目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

遠端視覺輔助(RSA)技術透過即時視訊連結視力障礙者與有視力的代理人,協助他們導航。研究發現使用者和代理人面臨四大挑戰:定位困難、環境解讀問題、情境資訊提供挑戰,以及網路不良影響。研究識別了15個導航挑戰,並提出10個新興問題,強調人類與人工智慧(AI)合作的重要性。隨著大型語言模型的發展,RSA與AI的整合有望提升視覺輔助技術的效能。 PubMed DOI

大型語言模型(LLMs)能理解和產生自然語言,正改變醫療、教育、金融等產業,提升效率和準確度。不過,LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制,並探討未來趨勢。 PubMed DOI

大型語言模型正帶動材料科學革新,讓自動化材料發現成真,像是資料擷取、性質預測都更有效率。不過,目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度,才能讓這些技術在實際應用上更可靠、更公平。 PubMed DOI

這篇論文介紹一套語音超市助理系統,評比四種語音辨識工具,發現 OpenAI 的 Whisper 準確度最高。團隊還開發多LLM聊天機器人架構,使用體驗比單一GPT-4 Turbo更好,能把回應連結到貨架位置,方便機器人導航。結果顯示,結合多個專業模型比只用一個大型模型更有效。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI