原始文章

這篇文章探討了多模態推薦系統的最新進展,這些系統結合文本、圖像和用戶對話等多種數據。文章指出兩大挑戰:用戶需求的複雜性和高品質數據集的不足,尤其在互動場景中。提出的解決方案結合多模態技術與大型語言模型(LLMs),提升用戶互動和推薦準確性。關鍵技術包括交叉注意力機制、多圖神經網絡和自我反思機制。實驗結果顯示,這些模型在準確率和召回率上超越現有方法,並在視覺問答任務中表現優異,顯示出其實際應用潛力。 PubMed DOI


站上相關主題文章列表

這篇論文探討大型語言模型(LLMs)對自然科學和社會科學的影響,特別是透過生成代理模型(GABMs)模擬人類行為。研究涵蓋網絡科學、演化博弈論等領域,顯示LLMs能預測社會行為、增強合作及模擬疾病傳播。雖然LLMs能模仿公平性和合作,但仍面臨提示敏感性和幻覺等挑戰,影響行為一致性。未來研究應聚焦於完善模型、標準化方法,並探討LLMs與人類互動可能帶來的新合作行為,重塑決策過程。 PubMed DOI

這篇論文探討大型語言模型(LLMs),像是LLaMA和ChatGPT,如何增強推薦系統的可解釋性。文中強調清晰解釋對建立用戶信任和透明度的重要性。作者進行了系統性文獻回顧,聚焦於2022年11月至2024年11月的研究,發現232篇文章中僅有六篇直接探討LLMs在推薦系統中生成解釋的研究,顯示整合仍在初期階段。論文分析這些研究,探討當前方法、挑戰及未來研究方向,強調LLMs在改善推薦解釋和以用戶為中心的解決方案上的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在推薦系統中作為「公平性識別者」的角色,重點在於它們識別和促進公平推薦的能力。研究人員分析了MovieLens和LastFM數據集,並比較了有無公平性策略的變分自編碼器(VAE)生成的推薦。他們發現LLMs能有效識別不公平的推薦,並提出用公平VAE生成的替代品來改善推薦的公平性。結果顯示,這種方法顯著提升了性別基礎群體的公平性與效用比率,實現了公平性與效用的更好平衡。 PubMed DOI

這篇文件探討擴增實境(XR)的快速發展,並強調大型語言模型(LLMs)整合進XR系統的潛力。它提出三個主要支柱:感知與情境意識、知識建模與推理,以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處,同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究,目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

這項研究介紹了一種新的個人化大型語言模型(PLLM)代理,旨在提升大型語言模型在人體與機器人及人機互動中的整合能力。雖然現有研究多集中於技術層面,但在適應個別用戶情境上仍面臨挑戰。我們提出利用特定領域數據來個人化模型,並透過NeuroSense EEG數據集進行驗證。研究結果顯示,PLLM在醫療、教育及輔助技術等領域具有效用,並探討了相關的倫理考量,如數據隱私問題。這標誌著人工智慧在適應性和個人化上的重要進展。 PubMed DOI

這項研究提出用輔助交叉注意力網路(ACAN)來幫AI代理人挑選最相關的記憶,並首次用大型語言模型(LLM)來訓練這套記憶檢索系統。這種做法能讓代理人在模擬環境中表現更穩定、反應更靈活,對提升生成式AI代理人的記憶管理和行為表現很有幫助。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

這篇文章探討多模態大型語言模型(MLLMs)和訓練資料的互動關係,強調優質多元資料能提升模型表現,而先進模型也能幫助資料優化。文中分析資料與模型如何共同進步,並提供未來研究方向,協助推動MLLMs與資料的雙向發展。 PubMed DOI

這篇論文提出一套以使用者為核心的分散式AI影像生成服務架構,利用生成式擴散模型(GDMs),讓用戶能共享部分生成流程,提升效率。作者還結合大型語言模型與強化學習,模擬用戶回饋,優化主觀體驗品質(QoE)。新演算法G-DDPG能根據用戶偏好和網路狀況有效分配資源,模擬結果顯示QoE提升約15%。 PubMed DOI

大型語言模型在視覺化任務中,特別有專家指引時,能模擬人類評分與推理,且在專家信心高時表現與人類相近。不過,LLMs在穩定性和偏誤上仍有限,適合用來快速原型評估,但還是無法完全取代傳統使用者研究。 PubMed DOI