原始文章

這篇論文提出一個新模型VehiclePaliGemma,專門針對困難情境下的車牌辨識(像是雜訊、模糊、字太近等),在馬來西亞車牌資料集上測試,準確率達87.6%,每秒可處理7張影像。這個模型還能同時辨識多台車的車型、顏色和方向,表現比現有方法更好。 PubMed DOI


站上相關主題文章列表

這項研究提出了一種新方法,利用多模態大型語言模型來融合紅外線和可見光影像,克服了傳統影像融合技術的缺點。主要包含兩個部分:首先是CLIP驅動的資訊注入,提取語意豐富的影像特徵;其次是CLIP引導的特徵融合,有效合併紅外線和可見光特徵,應對複雜場景挑戰。這種方法不需複雜網路架構,實驗結果顯示在多個公共數據集上表現優於現有技術。 PubMed DOI

這篇論文探討了Cockpit-Llama的開發,這是一個專門用來預測駕駛者行為意圖的語言模型,目的是提升車輛駕駛艙的互動性。透過分析駕駛者的行為、歷史數據及環境狀態,Cockpit-Llama能做出準確預測,協助主動決策。研究團隊還建立了一個新的多屬性駕駛艙數據集,涵蓋情緒和身體狀況等多方面資料。使用低秩適應(LoRA)進行微調後,實驗結果顯示Cockpit-Llama在預測準確度上超越了現有方法,顯著改善了智能駕駛艙的推理能力。 PubMed DOI

這篇論文提出用視覺大型語言模型(VLMs)自動從影像生成道路場景圖,能細緻捕捉交通場景的語意和物件關係。作者還設計了可擴充的場景屬性和圖形相似度量法,並建立了1000筆標註資料集。實驗證明,這方法能用文字、圖片或影片靈活檢索語意相似的交通場景,對自駕車應用很有幫助。 PubMed DOI

這項研究提出一套可解釋的系統(CPTR-LLM),用大型語言模型來預測自駕車的碰撞風險,並判斷駕駛人何時該接手。經過大量數據和兩階段訓練,模型預測準確率高達0.88,也能有效減少不必要或危險的接管。結果顯示,大型語言模型有助提升自駕車的道路安全。 PubMed DOI

這篇論文提出一種全新的高效轉移學習方法,專門用在視覺-語言模型。它結合了兩種特徵調整器,並利用大型語言模型自動產生更精細、具情境的提示,取代傳統模板化文字。這讓模型能更準確分辨不同類別,在11個資料集上都拿下最佳成績。程式碼和提示內容可在 GitHub 查詢。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

作者發現,單純的VLMs在影像分類上表現比結合LLMs還好,但LLMs在需要推理或外部知識時有優勢。為此,他們提出一個輕量級的LLM router,能自動分配任務給最適合的模型。這方法用超過250萬組資料訓練,效果不輸GPT-4V等先進系統,且成本更低。 PubMed DOI

這篇論文提出 SeeUnsafe 架構,運用多模態大型語言模型自動化交通監視器事故偵測,不需人工後處理,還能互動式分析影片。系統可彈性調整分析任務,並有新指標 IMS 評估回應品質。實驗證明,SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI

這篇論文提出Argus,一種結合2D多視角影像、相機位置和3D點雲的新3D多模態架構。Argus融合2D細節和3D特徵,彌補單靠點雲資訊不足的問題,讓大型語言模型在3D場景理解上更精準。實驗證明,Argus在多項3D任務表現都比現有方法更優秀。 PubMed DOI

這篇論文提出一個結合深度語境嵌入和CNN的混合模型,專門提升像LLaMA2這類大型語言模型在標準化中文文本處理的表現。新方法能同時抓住語意和結構特徵,讓中文NLP任務更準確又有效率,並在多項測試中表現優異,也有望應用在翻譯和情感分析等領域。 PubMed DOI