原始文章

這篇文章探討了多模態推薦系統的最新進展,這些系統結合文本、圖像和用戶對話等多種數據。文章指出兩大挑戰:用戶需求的複雜性和高品質數據集的不足,尤其在互動場景中。提出的解決方案結合多模態技術與大型語言模型(LLMs),提升用戶互動和推薦準確性。關鍵技術包括交叉注意力機制、多圖神經網絡和自我反思機制。實驗結果顯示,這些模型在準確率和召回率上超越現有方法,並在視覺問答任務中表現優異,顯示出其實際應用潛力。 PubMed DOI


站上相關主題文章列表

這篇論文探討多模態數據在醫學中的重要性,包括醫學影像、時間序列、音頻、文本、視頻及組學數據。雖然大型語言模型(LLMs)在醫療知識檢索上已有進展,但多數仍專注於文本,未能有效整合各種數據。論文提出一個針對醫學多模態大型語言模型(M-LLMs)的綜合框架,涵蓋原則、應用、挑戰及未來研究方向,旨在促進M-LLMs的整合,提升數據驅動的醫療實踐,並激發對下一代醫療M-LLM系統的討論與創新。 PubMed DOI

這篇綜述文章全面介紹了大型語言模型(LLMs)和多模態語言模型(MLLMs),涵蓋它們的原理、應用及演變,適合各領域的研究人員、學生和學者閱讀。文章首先解釋了LLMs的技術概念,包括其運作原理和標記化過程,並探討了在生物大分子、醫學科學等領域的應用。接著,討論了LLMs的多模態應用,展示如何整合不同數據類型。最後,文章提到LLMs的挑戰及未來發展,為臨床醫生和科學家提供了重要資源,增進對這些模型的理解。 PubMed DOI

這篇論文探討大型語言模型(LLMs)對自然科學和社會科學的影響,特別是透過生成代理模型(GABMs)模擬人類行為。研究涵蓋網絡科學、演化博弈論等領域,顯示LLMs能預測社會行為、增強合作及模擬疾病傳播。雖然LLMs能模仿公平性和合作,但仍面臨提示敏感性和幻覺等挑戰,影響行為一致性。未來研究應聚焦於完善模型、標準化方法,並探討LLMs與人類互動可能帶來的新合作行為,重塑決策過程。 PubMed DOI

這篇評論探討大型語言模型(LLMs)和多模態大型語言模型(MLLMs)在放射學的進展,強調它們在報告生成、影像解讀、電子健康紀錄摘要等方面的潛力。透過自動化,這些模型能減輕放射科醫師的負擔,提高診斷準確性,並促進跨學科合作,最終提升病人護理品質。不過,評論也指出MLLMs在解讀三維醫學影像及整合影像與文本數據上仍面臨挑戰,並呼籲對評估方法的改進。 PubMed DOI

這篇論文探討了多模態大型語言模型(MLLMs)的最新進展,特別是像GPT-4V這類結合語言處理與多模態任務的模型。作者強調了MLLMs的獨特能力,例如從圖像生成敘事及進行複雜推理,顯示出朝向人工通用智慧的潛力。論文提供了MLLMs的全面概述,包括架構、訓練策略和評估方法,並探討了增強其適應性的方法。此外,還討論了多模態幻覺等問題及未來研究方向,以提升MLLM的能力。 PubMed DOI

這篇論文探討大型語言模型(LLMs),像是LLaMA和ChatGPT,如何增強推薦系統的可解釋性。文中強調清晰解釋對建立用戶信任和透明度的重要性。作者進行了系統性文獻回顧,聚焦於2022年11月至2024年11月的研究,發現232篇文章中僅有六篇直接探討LLMs在推薦系統中生成解釋的研究,顯示整合仍在初期階段。論文分析這些研究,探討當前方法、挑戰及未來研究方向,強調LLMs在改善推薦解釋和以用戶為中心的解決方案上的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在推薦系統中作為「公平性識別者」的角色,重點在於它們識別和促進公平推薦的能力。研究人員分析了MovieLens和LastFM數據集,並比較了有無公平性策略的變分自編碼器(VAE)生成的推薦。他們發現LLMs能有效識別不公平的推薦,並提出用公平VAE生成的替代品來改善推薦的公平性。結果顯示,這種方法顯著提升了性別基礎群體的公平性與效用比率,實現了公平性與效用的更好平衡。 PubMed DOI

3D 表示學習在計算機視覺、自動駕駛和機器人技術中越來越重要,但將 2D 對齊方法應用於 3D 數據面臨三大挑戰:資訊劣化、協同不足和未充分利用。為了解決這些問題,我們提出了 JM3D,這是一種整合點雲、文本和圖像的整體方法。其創新包括結構化多模態組織器(SMO)和聯合多模態對齊(JMA),有效結合語言理解與視覺表示。我們的 JM3D-LLM 模型在多個數據集上表現優異,詳細資訊可在 https://github.com/Mr-Neko/JM3D 獲得。 PubMed DOI

這篇文件探討擴增實境(XR)的快速發展,並強調大型語言模型(LLMs)整合進XR系統的潛力。它提出三個主要支柱:感知與情境意識、知識建模與推理,以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處,同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究,目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

這項研究介紹了一種新的個人化大型語言模型(PLLM)代理,旨在提升大型語言模型在人體與機器人及人機互動中的整合能力。雖然現有研究多集中於技術層面,但在適應個別用戶情境上仍面臨挑戰。我們提出利用特定領域數據來個人化模型,並透過NeuroSense EEG數據集進行驗證。研究結果顯示,PLLM在醫療、教育及輔助技術等領域具有效用,並探討了相關的倫理考量,如數據隱私問題。這標誌著人工智慧在適應性和個人化上的重要進展。 PubMed DOI