原始文章

所提出的知識蒸餾增強行為轉換器(KD-BeT)框架,結合模仿學習和強化學習的優勢,旨在改善自駕車的行為決策。雖然強化學習在複雜環境中的推理能力較弱,但KD-BeT利用變壓器的上下文推理能力來增強決策。首先,透過模仿學習訓練教師模型,再利用知識蒸餾指導學生模型,提升強化學習的效率和性能。模擬結果顯示,KD-BeT在CARLA NoCrash基準測試中表現優異,特別在交通效率和駕駛安全性上超越其他方法,為解決自駕車挑戰提供了新思路。 PubMed DOI


站上相關主題文章列表

這篇論文探討了Cockpit-Llama的開發,這是一個專門用來預測駕駛者行為意圖的語言模型,目的是提升車輛駕駛艙的互動性。透過分析駕駛者的行為、歷史數據及環境狀態,Cockpit-Llama能做出準確預測,協助主動決策。研究團隊還建立了一個新的多屬性駕駛艙數據集,涵蓋情緒和身體狀況等多方面資料。使用低秩適應(LoRA)進行微調後,實驗結果顯示Cockpit-Llama在預測準確度上超越了現有方法,顯著改善了智能駕駛艙的推理能力。 PubMed DOI

動態視覺與語言導航(DynamicVLN)任務旨在改善傳統的視覺與語言導航(VLN),融入了如車輛移動、交通信號、行人活動和天氣變化等動態因素。這項新任務要求代理不僅要遵循指示,還需在面對突發事件時展現推理和適應能力。為此,研究者創建了十個動態導航場景,並利用CARLA模擬器和大型語言模型建立了包含11,261個實例的數據集,提供真實的訓練環境,並引入基準模型以提升導航能力,目標是開發能在複雜環境中運作的強大代理。 PubMed DOI

最近的研究發現,將Transformer模型與條件策略結合,可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察,而Transformer則同時處理多個觀察,這可能影響特徵提取及決策的準確性。為了解決這些問題,我們利用預訓練模型的少量學習特性,並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息,我們能快速掌握任務特徵。實驗結果顯示,我們的方法在相關任務中表現優於基準,並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

知識蒸餾(KD)是一種壓縮大型語言模型的技術,透過將知識從大模型轉移到小模型。傳統KD方法依賴於KL、RKL和JS等度量,但在教師和學生模型分佈重疊時會遇到問題。為了解決這些挑戰,提出了Sinkhorn KD(SinKD),利用Sinkhorn距離更準確地比較模型分佈,並採用批次形式捕捉高維空間的幾何關係。SinKD在GLUE和SuperGLUE基準上表現優越,作者已公開代碼和模型供研究使用。 PubMed DOI

這項研究提出了一種新方法,結合生成注意力機制與狀態轉換方程,分析中文教育中的學習行為。這種方法能即時調整注意力權重,模擬學生情感與行為變化,克服現有方法的限制。透過實證實驗,預測行為準確率達90.6%,學習滿意度得分89.2,超越BERT、GPT-3等基準模型。這些結果顯示該方法在個性化教學與動態行為建模上的實用性,為中文教育提供了結構化框架。 PubMed DOI

這項研究開發了LFBERT-ReasonSoT自動化系統,結合LDA主題模型和微調BERT,能更準確分析交通事故報告的肇因和嚴重程度。結果顯示,這套系統比傳統方法更有效率,能從複雜事故文本中萃取有用資訊,提升事故資料自動化處理的能力。 PubMed DOI

這篇論文提出DBOP-DDPG演算法,把糞金龜優化和優先經驗回放結合進DDPG,解決連續動作空間收斂慢、易卡在局部最優的問題。透過多族群搜尋提升全域最佳化能力,並用新排序取樣方式加快收斂。實驗結果顯示,收斂速度提升至少10%,累積獎勵最多高出150分。 PubMed DOI

這篇研究開發了一款專為資源有限裝置設計的輕量級韓文語言模型,利用知識蒸餾和低秩分解技術,把大型模型壓縮到僅 4M 參數。即使模型變小,在六項韓文 NLP 任務中效能仍超過 97%,甚至在情感分類上還贏過原本的大模型,非常適合手機或邊緣裝置使用。 PubMed DOI

這篇論文提出用視覺大型語言模型(VLMs)自動從影像生成道路場景圖,能細緻捕捉交通場景的語意和物件關係。作者還設計了可擴充的場景屬性和圖形相似度量法,並建立了1000筆標註資料集。實驗證明,這方法能用文字、圖片或影片靈活檢索語意相似的交通場景,對自駕車應用很有幫助。 PubMed DOI

這項研究提出一套可解釋的系統(CPTR-LLM),用大型語言模型來預測自駕車的碰撞風險,並判斷駕駛人何時該接手。經過大量數據和兩階段訓練,模型預測準確率高達0.88,也能有效減少不必要或危險的接管。結果顯示,大型語言模型有助提升自駕車的道路安全。 PubMed DOI