MGFusion: a multimodal large language model-guided information perception for infrared and visible image fusion.
MGFusion：一種多模態大型語言模型引導的紅外與可見光影像融合信息感知。 Front Neurorobot 2025-01-07

這項研究提出了一種新方法，利用多模態大型語言模型來融合紅外線和可見光影像，克服了傳統影像融合技術的缺點。主要包含兩個部分：首先是CLIP驅動的資訊注入，提取語意豐富的影像特徵；其次是CLIP引導的特徵融合，有效合併紅外線和可見光特徵，應對複雜場景挑戰。這種方法不需複雜網路架構，實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

Urban sensing in the era of large language models.
大型語言模型時代的城市感知。 Innovation (Camb) 2025-01-28

隨著城市成為人類活動的核心，城市感知的重要性日益提升。大型語言模型（LLMs）透過其語言框架，為城市感知帶來新機會。本文探討LLMs在理解城市機制上的潛力，重點在於改善人類與LLMs的知識轉移、提升對城市運作的認識，以及透過LLM代理實現自動化決策。雖然LLMs能提供更深入的城市動態理解，但也面臨多模態數據整合、時空推理、文化適應性和隱私等挑戰。未來的城市感知需善用LLMs的智慧，並克服這些挑戰，以促進智能和可持續的城市發展。 PubMed DOI

JM3D & JM3D-LLM: Elevating 3D Representation With Joint Multi-Modal Cues.
JM3D 與 JM3D-LLM：透過聯合多模態線索提升 3D 表現。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

3D 表示學習在計算機視覺、自動駕駛和機器人技術中越來越重要，但將 2D 對齊方法應用於 3D 數據面臨三大挑戰：資訊劣化、協同不足和未充分利用。為了解決這些問題，我們提出了 JM3D，這是一種整合點雲、文本和圖像的整體方法。其創新包括結構化多模態組織器（SMO）和聯合多模態對齊（JMA），有效結合語言理解與視覺表示。我們的 JM3D-LLM 模型在多個數據集上表現優異，詳細資訊可在 https://github.com/Mr-Neko/JM3D 獲得。 PubMed DOI

Next Generation XR Systems-Large Language Models Meet Augmented and Virtual Reality.
下一代 XR 系統 - 大型語言模型與擴增實境及虛擬實境的結合。 IEEE Comput Graph Appl 2025-03-06

這篇文件探討擴增實境（XR）的快速發展，並強調大型語言模型（LLMs）整合進XR系統的潛力。它提出三個主要支柱：感知與情境意識、知識建模與推理，以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處，同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究，目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models.
LLMER：利用大型語言模型生成的 JSON 數據創建互動擴展現實世界。 IEEE Trans Vis Comput Graph 2025-03-10

大型語言模型（LLMs）如GPT-4與擴增實境（XR）技術結合，能創造沉浸式環境，並透過自然語言與使用者互動。不過，XR環境的複雜性使得提取上下文數據變得困難，導致成本上升和錯誤產生。為了解決這些問題，我們推出了LLMER框架，利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲，初步研究顯示其令牌消耗減少超過80%，任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

3DBench: A scalable benchmark for object and scene-level instruction-tuning of 3D large language models.
3DBench：用於3D大型語言模型物件與場景層級指令微調的可擴展性基準 Neural Netw 2025-05-17

目前針對多模態大型語言模型處理點雲資料的評測標準很有限，難以全面評估模型的空間理解與推理能力。為此，作者提出3DBench，涵蓋十項物件與場景任務，並分為表達、感知、推理三類。作者也建立了超過23萬筆3D指令問答資料集，並設計Bench-model來提升表現。程式碼和資料已開源於GitHub。 PubMed DOI

A Multimodal Large Language Model Framework for Intelligent Perception and Decision-Making in Smart Manufacturing.
智慧製造中用於智能感知與決策的多模態大型語言模型框架 Sensors (Basel) 2025-05-28

這篇論文提出一套多模態系統，能整合影像、感測器數據和生產紀錄，並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力，採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成，提升即時決策。實驗證明，這方法在影像-文字檢索和視覺問答等任務表現優異，對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

Rethinking VLMs and LLMs for image classification.
重新思考 VLMs 與 LLMs 在影像分類上的應用 Sci Rep 2025-06-04

作者發現，單純的VLMs在影像分類上表現比結合LLMs還好，但LLMs在需要推理或外部知識時有優勢。為此，他們提出一個輕量級的LLM router，能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練，效果不輸GPT-4V等先進系統，且成本更低。 PubMed DOI

When language and vision meet road safety: Leveraging multimodal large language models for video-based traffic accident analysis.
當語言與視覺相遇於道路安全：運用多模態大型語言模型進行基於影片的交通事故分析 Accid Anal Prev 2025-06-05

這篇論文提出 SeeUnsafe 架構，運用多模態大型語言模型自動化交通監視器事故偵測，不需人工後處理，還能互動式分析影片。系統可彈性調整分析任務，並有新指標 IMS 評估回應品質。實驗證明，SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI

CAT+: Investigating and Enhancing Audio-visual Understanding in Large Language Models.
CAT+：探討與提升大型語言模型的視聽理解能力 IEEE Trans Pattern Anal Mach Intell 2025-06-25

這篇論文提出CAT+方法，專為提升多模態大型語言模型在影音問答上的表現，解決理解模糊和幻覺問題。CAT+用SQM強化理解，AS-DPO減少模糊回答，並設計AVHbench評測模型幻覺現象。實驗證明CAT+比現有方法更準確可靠。 PubMed DOI

原始文章

站上相關主題文章列表