原始文章

這篇論文提出 SeeUnsafe 架構,運用多模態大型語言模型自動化交通監視器事故偵測,不需人工後處理,還能互動式分析影片。系統可彈性調整分析任務,並有新指標 IMS 評估回應品質。實驗證明,SeeUnsafe 在事故分類和證據定位上表現優異。 PubMed DOI


站上相關主題文章列表

這項研究探討如何利用先進的大型語言模型(LLMs)來提升煤礦安全評估。傳統方法在面對複雜數據時效率不佳,而這個系統能快速處理來自感測器的數據,並透過實體互動增強環境意識。結合煤礦安全知識庫,系統能進行邏輯推理、檢測異常及預測風險,並具備記憶功能以持續學習。研究中還設計了實驗框架,展示該系統在煤礦安全評估中的高效性,提供了一個創新的解決方案。 PubMed DOI

隨著城市成為人類活動的核心,城市感知的重要性日益提升。大型語言模型(LLMs)透過其語言框架,為城市感知帶來新機會。本文探討LLMs在理解城市機制上的潛力,重點在於改善人類與LLMs的知識轉移、提升對城市運作的認識,以及透過LLM代理實現自動化決策。雖然LLMs能提供更深入的城市動態理解,但也面臨多模態數據整合、時空推理、文化適應性和隱私等挑戰。未來的城市感知需善用LLMs的智慧,並克服這些挑戰,以促進智能和可持續的城市發展。 PubMed DOI

這項研究探討交通事故報告中的低報問題,這會影響交通安全措施的發展。傳統修正方法慢且易出錯,特別是處理大數據時。作者提出一個框架,利用大型語言模型(LLMs)分析事故敘述,識別低報因素,如酒精參與。研究團隊用麻薩諸塞州的500份事故報告進行案例研究,結果顯示高準確率,召回率達1.0,精確率0.93,成功識別低報情況。這方法提升了交通安全分析的效率,未來可改善事故記錄質量,支持更有效的安全對策。 PubMed DOI

這項研究開發了LFBERT-ReasonSoT自動化系統,結合LDA主題模型和微調BERT,能更準確分析交通事故報告的肇因和嚴重程度。結果顯示,這套系統比傳統方法更有效率,能從複雜事故文本中萃取有用資訊,提升事故資料自動化處理的能力。 PubMed DOI

這篇論文提出用視覺大型語言模型(VLMs)自動從影像生成道路場景圖,能細緻捕捉交通場景的語意和物件關係。作者還設計了可擴充的場景屬性和圖形相似度量法,並建立了1000筆標註資料集。實驗證明,這方法能用文字、圖片或影片靈活檢索語意相似的交通場景,對自駕車應用很有幫助。 PubMed DOI

這項研究提出一套可解釋的系統(CPTR-LLM),用大型語言模型來預測自駕車的碰撞風險,並判斷駕駛人何時該接手。經過大量數據和兩階段訓練,模型預測準確率高達0.88,也能有效減少不必要或危險的接管。結果顯示,大型語言模型有助提升自駕車的道路安全。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

**重點整理:** 大型語言模型可以準確分類安全事件通報(例如:職場暴力、溝通失誤),協助醫療機構快速掌握安全趨勢,並透過自動化分析來提升職場安全。 PubMed

這篇論文提出Argus,一種結合2D多視角影像、相機位置和3D點雲的新3D多模態架構。Argus融合2D細節和3D特徵,彌補單靠點雲資訊不足的問題,讓大型語言模型在3D場景理解上更精準。實驗證明,Argus在多項3D任務表現都比現有方法更優秀。 PubMed DOI

這篇論文提出一個新模型VehiclePaliGemma,專門針對困難情境下的車牌辨識(像是雜訊、模糊、字太近等),在馬來西亞車牌資料集上測試,準確率達87.6%,每秒可處理7張影像。這個模型還能同時辨識多台車的車型、顏色和方向,表現比現有方法更好。 PubMed DOI