MGFusion: a multimodal large language model-guided information perception for infrared and visible image fusion.
MGFusion：一種多模態大型語言模型引導的紅外與可見光影像融合信息感知。 Front Neurorobot 2025-01-07

這項研究提出了一種新方法，利用多模態大型語言模型來融合紅外線和可見光影像，克服了傳統影像融合技術的缺點。主要包含兩個部分：首先是CLIP驅動的資訊注入，提取語意豐富的影像特徵；其次是CLIP引導的特徵融合，有效合併紅外線和可見光特徵，應對複雜場景挑戰。這種方法不需複雜網路架構，實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

Cockpit-Llama: Driver Intent Prediction in Intelligent Cockpit via Large Language Model.
Cockpit-Llama：透過大型語言模型在智慧駕駛艙中預測駕駛者意圖。 Sensors (Basel) 2025-01-11

這篇論文探討了Cockpit-Llama的開發，這是一個專門用來預測駕駛者行為意圖的語言模型，目的是提升車輛駕駛艙的互動性。透過分析駕駛者的行為、歷史數據及環境狀態，Cockpit-Llama能做出準確預測，協助主動決策。研究團隊還建立了一個新的多屬性駕駛艙數據集，涵蓋情緒和身體狀況等多方面資料。使用低秩適應（LoRA）進行微調後，實驗結果顯示Cockpit-Llama在預測準確度上超越了現有方法，顯著改善了智能駕駛艙的推理能力。 PubMed DOI

Query by Example: Semantic Traffic Scene Retrieval Using LLM-Based Scene Graph Representation.
以範例查詢：使用基於大型語言模型（LLM）的場景圖表示進行語意交通場景檢索 Sensors (Basel) 2025-04-26

這篇論文提出用視覺大型語言模型（VLMs）自動從影像生成道路場景圖，能細緻捕捉交通場景的語意和物件關係。作者還設計了可擴充的場景屬性和圖形相似度量法，並建立了1000筆標註資料集。實驗證明，這方法能用文字、圖片或影片靈活檢索語意相似的交通場景，對自駕車應用很有幫助。 PubMed DOI

Collision risk prediction and takeover requirements assessment based on radar-video integrated sensors data: A system framework based on LLM.
基於雷達-影像整合感測器數據的碰撞風險預測與接管需求評估：一個基於LLM的系統架構 Accid Anal Prev 2025-05-06

這項研究提出一套可解釋的系統（CPTR-LLM），用大型語言模型來預測自駕車的碰撞風險，並判斷駕駛人何時該接手。經過大量數據和兩階段訓練，模型預測準確率高達0.88，也能有效減少不必要或危險的接管。結果顯示，大型語言模型有助提升自駕車的道路安全。 PubMed DOI

Dual Adapter Tuning of Vision-Language Models Using Large Language Models.
利用大型語言模型進行視覺-語言模型的雙適配器調校 Int J Comput Intell Syst 2025-05-15

這篇論文提出一種全新的高效轉移學習方法，專門用在視覺-語言模型。它結合了兩種特徵調整器，並利用大型語言模型自動產生更精細、具情境的提示，取代傳統模板化文字。這讓模型能更準確分辨不同類別，在11個資料集上都拿下最佳成績。程式碼和提示內容可在 GitHub 查詢。 PubMed DOI

A Multimodal Large Language Model Framework for Intelligent Perception and Decision-Making in Smart Manufacturing.
智慧製造中用於智能感知與決策的多模態大型語言模型框架 Sensors (Basel) 2025-05-28

這篇論文提出一套多模態系統，能整合影像、感測器數據和生產紀錄，並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力，採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成，提升即時決策。實驗證明，這方法在影像-文字檢索和視覺問答等任務表現優異，對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

Rethinking VLMs and LLMs for image classification.
重新思考 VLMs 與 LLMs 在影像分類上的應用 Sci Rep 2025-06-04

作者發現，單純的VLMs在影像分類上表現比結合LLMs還好，但LLMs在需要推理或外部知識時有優勢。為此，他們提出一個輕量級的LLM router，能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練，效果不輸GPT-4V等先進系統，且成本更低。 PubMed DOI

When language and vision meet road safety: Leveraging multimodal large language models for video-based traffic accident analysis.
當語言與視覺相遇於道路安全：運用多模態大型語言模型進行基於影片的交通事故分析 Accid Anal Prev 2025-06-05

這篇論文提出 SeeUnsafe 架構，運用多模態大型語言模型自動化交通監視器事故偵測，不需人工後處理，還能互動式分析影片。系統可彈性調整分析任務，並有新指標 IMS 評估回應品質。實驗證明，SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI

Argus: Leveraging Multiview Images for Improved 3-D Scene Understanding With Large Language Models.
Argus：結合多視角影像與大型語言模型以提升3D場景理解 IEEE Trans Neural Netw Learn Syst 2025-06-25

這篇論文提出Argus，一種結合2D多視角影像、相機位置和3D點雲的新3D多模態架構。Argus融合2D細節和3D特徵，彌補單靠點雲資訊不足的問題，讓大型語言模型在3D場景理解上更精準。實驗證明，Argus在多項3D任務表現都比現有方法更優秀。 PubMed DOI

A hybrid architecture for enhancing Chinese text processing using CNN and LLaMA2.
結合 CNN 與 LLaMA2 之混合式架構以提升中文文本處理效能 Sci Rep 2025-07-09

這篇論文提出一個結合深度語境嵌入和CNN的混合模型，專門提升像LLaMA2這類大型語言模型在標準化中文文本處理的表現。新方法能同時抓住語意和結構特徵，讓中文NLP任務更準確又有效率，並在多項測試中表現優異，也有望應用在翻譯和情感分析等領域。 PubMed DOI

原始文章

站上相關主題文章列表