原始文章

所提出的知識蒸餾增強行為轉換器(KD-BeT)框架,結合模仿學習和強化學習的優勢,旨在改善自駕車的行為決策。雖然強化學習在複雜環境中的推理能力較弱,但KD-BeT利用變壓器的上下文推理能力來增強決策。首先,透過模仿學習訓練教師模型,再利用知識蒸餾指導學生模型,提升強化學習的效率和性能。模擬結果顯示,KD-BeT在CARLA NoCrash基準測試中表現優異,特別在交通效率和駕駛安全性上超越其他方法,為解決自駕車挑戰提供了新思路。 PubMed DOI


站上相關主題文章列表

介紹了一個新的研究,提出了「分心駕駛語言模型」(DDLM),利用視覺大型語言模型(LLM)來辨識分心駕駛行為。DDLM整合了人體姿勢估計技術,分析關鍵姿勢特徵,並透過推理鏈框架提供清晰解釋。研究顯示,DDLM在評估駕駛行為和風險水平方面比標準模型表現更佳,可有效增進駕駛安全性。 PubMed DOI

這篇論文介紹了一個創新的低成本模擬駕駛評估系統,搭載語音助手,利用生成式人工智慧進行即時互動。這種模擬器提供比傳統實地評估更安全且可自訂的選擇,解決了高成本的問題。系統旨在提升駕駛者的情境意識,並促進正向情緒,幫助識別需要進一步評估的駕駛者。初步結果顯示,與語音助手互動的參與者在駕駛表現和情緒狀態上都有所改善。 PubMed DOI

隨著醫療保健中情緒監測的重要性提升,基於腦電圖(EEG)的多模態情緒識別系統逐漸受到重視。然而,日常醫療環境中獲取EEG信號的困難,常導致數據不完整。為了解決這個問題,研究人員提出了一個多教師知識蒸餾框架,結合大型語言模型(LLM)來增強特徵學習。透過LLM提取時間特徵,圖卷積神經網絡則負責空間特徵,並引入因果遮罩和信心指標以提升特徵轉移的相關性。實驗結果顯示,該模型在不完整模態下表現優於現有方法,顯示大型模型在醫療情緒識別中的潛力。相關代碼已公開,網址為 https://github.com/yuzhezhangEEG/LM-KD。 PubMed DOI

城市交通擁堵對經濟和環境造成挑戰,自適應交通信號控制(ATSC)成為解決方案之一。近期,深度強化學習(DRL)的進展提升了ATSC的效能。本文介紹了一種新型ATSC方法——序列決策變壓器(SDT),結合注意力機制與序列決策模型,專為城市交通管理設計。SDT模型在馬可夫決策過程框架下運作,顯示出縮短訓練時間、改善決策過程等優勢,並在合成場景中超越傳統方法,顯示出緩解城市擁堵的潛力。 PubMed DOI

SafeMod是一個新框架,旨在提升自動駕駛的安全性,透過改善複雜環境中的決策和情境管理。它克服了傳統方法的局限,採用雙向規劃結構,包括前向和後向規劃。前向規劃利用大型語言模型預測周圍行為,生成行動預測,並由基於變壓器的規劃器處理,結合文本和影像數據創建駕駛軌跡。後向規劃則透過強化學習精煉這些軌跡,選擇最佳行動。實驗結果顯示,SafeMod在安全性和決策能力上優於其他系統,顯示其在自動駕駛中的潛力。 PubMed DOI

隨著人工智慧的快速進步,服務機器人在日常生活中越來越普遍,這要求它們能準確識別人類意圖。現有方法在複雜環境中常常無法達標。為了解決這個問題,我們提出了一個基於大型語言模型和知識圖譜的意圖識別框架(LKIRF)。這個框架結合了大型語言模型和知識圖譜,提升了服務機器人的意圖識別能力。實驗結果顯示,LKIRF在各種場景中的預測準確性超越傳統方法,並增強了意圖推理的透明度和可解釋性。 PubMed DOI

這篇論文探討了Cockpit-Llama的開發,這是一個專門用來預測駕駛者行為意圖的語言模型,目的是提升車輛駕駛艙的互動性。透過分析駕駛者的行為、歷史數據及環境狀態,Cockpit-Llama能做出準確預測,協助主動決策。研究團隊還建立了一個新的多屬性駕駛艙數據集,涵蓋情緒和身體狀況等多方面資料。使用低秩適應(LoRA)進行微調後,實驗結果顯示Cockpit-Llama在預測準確度上超越了現有方法,顯著改善了智能駕駛艙的推理能力。 PubMed DOI

動態視覺與語言導航(DynamicVLN)任務旨在改善傳統的視覺與語言導航(VLN),融入了如車輛移動、交通信號、行人活動和天氣變化等動態因素。這項新任務要求代理不僅要遵循指示,還需在面對突發事件時展現推理和適應能力。為此,研究者創建了十個動態導航場景,並利用CARLA模擬器和大型語言模型建立了包含11,261個實例的數據集,提供真實的訓練環境,並引入基準模型以提升導航能力,目標是開發能在複雜環境中運作的強大代理。 PubMed DOI

最近的研究發現,將Transformer模型與條件策略結合,可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察,而Transformer則同時處理多個觀察,這可能影響特徵提取及決策的準確性。為了解決這些問題,我們利用預訓練模型的少量學習特性,並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息,我們能快速掌握任務特徵。實驗結果顯示,我們的方法在相關任務中表現優於基準,並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

知識蒸餾(KD)是一種壓縮大型語言模型的技術,透過將知識從大模型轉移到小模型。傳統KD方法依賴於KL、RKL和JS等度量,但在教師和學生模型分佈重疊時會遇到問題。為了解決這些挑戰,提出了Sinkhorn KD(SinKD),利用Sinkhorn距離更準確地比較模型分佈,並採用批次形式捕捉高維空間的幾何關係。SinKD在GLUE和SuperGLUE基準上表現優越,作者已公開代碼和模型供研究使用。 PubMed DOI