MGFusion: a multimodal large language model-guided information perception for infrared and visible image fusion.
MGFusion：一種多模態大型語言模型引導的紅外與可見光影像融合信息感知。 Front Neurorobot 2025-01-07

這項研究提出了一種新方法，利用多模態大型語言模型來融合紅外線和可見光影像，克服了傳統影像融合技術的缺點。主要包含兩個部分：首先是CLIP驅動的資訊注入，提取語意豐富的影像特徵；其次是CLIP引導的特徵融合，有效合併紅外線和可見光特徵，應對複雜場景挑戰。這種方法不需複雜網路架構，實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

Large Language Models and Large Multimodal Models in Medical Imaging: A Primer for Physicians.
醫學影像中的大型語言模型和大型多模態模型：醫師入門指南。 J Nucl Med 2025-01-17

大型語言模型（LLMs）對醫療保健，特別是醫學影像領域，將帶來重大影響。隨著它們發展成能處理文本與影像的多模態模型（LMMs），醫生了解這些技術的基本概念變得相當重要，以便能有效且負責任地使用。文章介紹了標記嵌入、變壓器網絡、自我監督預訓練和微調等基本原則，並深入探討LMMs的技術創建過程及其在醫學影像中的應用。 PubMed DOI

Next Generation XR Systems-Large Language Models Meet Augmented and Virtual Reality.
下一代 XR 系統 - 大型語言模型與擴增實境及虛擬實境的結合。 IEEE Comput Graph Appl 2025-03-06

這篇文件探討擴增實境（XR）的快速發展，並強調大型語言模型（LLMs）整合進XR系統的潛力。它提出三個主要支柱：感知與情境意識、知識建模與推理，以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處，同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究，目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

MMAgentRec, a personalized multi-modal recommendation agent with large language model.
MMAgentRec：一個具大型語言模型的個性化多模態推薦代理。 Sci Rep 2025-04-08

這篇文章探討了多模態推薦系統的最新進展，這些系統結合文本、圖像和用戶對話等多種數據。文章指出兩大挑戰：用戶需求的複雜性和高品質數據集的不足，尤其在互動場景中。提出的解決方案結合多模態技術與大型語言模型（LLMs），提升用戶互動和推薦準確性。關鍵技術包括交叉注意力機制、多圖神經網絡和自我反思機制。實驗結果顯示，這些模型在準確率和召回率上超越現有方法，並在視覺問答任務中表現優異，顯示出其實際應用潛力。 PubMed DOI

Industrial applications of large language models.
大型語言模型的產業應用 Sci Rep 2025-04-21

大型語言模型（LLMs）能理解和產生自然語言，正改變醫療、教育、金融等產業，提升效率和準確度。不過，LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制，並探討未來趨勢。 PubMed DOI

Large Language Model-Driven 3D Hyper-Realistic Interactive Intelligent Digital Human System.
大型語言模型驅動的3D超擬真互動智慧數位人系統 Sensors (Basel) 2025-04-28

這篇論文介紹一套得獎的3D超擬真互動數位人系統，採用模組化客戶端-伺服器架構，結合LLM、語音辨識、自然語言處理和情感TTS技術。透過電腦圖學和AI，打造擬真3D虛擬人，目標是革新數位內容的製作和應用方式，並探討未來發展潛力。 PubMed DOI

Empowering Generalist Material Intelligence with Large Language Models.
以大型語言模型賦能通用材料智能 Adv Mater 2025-05-12

大型語言模型正帶動材料科學革新，讓自動化材料發現成真，像是資料擷取、性質預測都更有效率。不過，目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度，才能讓這些技術在實際應用上更可靠、更公平。 PubMed DOI

When language and vision meet road safety: Leveraging multimodal large language models for video-based traffic accident analysis.
當語言與視覺相遇於道路安全：運用多模態大型語言模型進行基於影片的交通事故分析 Accid Anal Prev 2025-06-05

這篇論文提出 SeeUnsafe 架構，運用多模態大型語言模型自動化交通監視器事故偵測，不需人工後處理，還能互動式分析影片。系統可彈性調整分析任務，並有新指標 IMS 評估回應品質。實驗證明，SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI

The Synergy Between Data and Multi-Modal Large Language Models: A Survey From Co-Development Perspective.
數據與多模態大型語言模型的協同效應：從共同發展視角的綜述 IEEE Trans Pattern Anal Mach Intell 2025-06-06

這篇文章探討多模態大型語言模型（MLLMs）和訓練資料的互動關係，強調優質多元資料能提升模型表現，而先進模型也能幫助資料優化。文中分析資料與模型如何共同進步，並提供未來研究方向，協助推動MLLMs與資料的雙向發展。 PubMed DOI

Using Large Languge Models for Processing Sensor Data.
使用大型語言模型處理感測器數據 Sensors (Basel) 2025-07-30

這篇論文探討用大型語言模型從非結構化或半結構化文本中自動擷取感測器資料，並強調設計精確提示語讓模型輸出標準 JSON 格式。實驗發現 GPT-4 效果最好，但資料結構明確時，開源模型表現也不差。小型模型處理自由文本較弱，但對表格資料還行；大型模型則更穩定可靠。 PubMed DOI

原始文章

站上相關主題文章列表