原始文章

在離線增強學習中,探索與利用的平衡對政策表現和樣本效率至關重要。為了解決這個問題,提出了一種新演算法,叫做歷史決策正則化最大熵(HDMRME)。這個演算法結合了最大熵增強學習框架和歷史決策正則化,旨在提升政策的利用能力。理論分析證明了其收斂性,並探討了探索與利用的權衡。實驗結果顯示,HDMRME在Mujoco和OpenAI Gym的多個連續動作控制任務中,樣本效率和整體表現均優於其他先進演算法。 PubMed DOI


站上相關主題文章列表

深度強化學習的挑戰在於有效探索。貝葉斯推斷的分布表示可增強探索,但貝葶斯神經網絡參數需明確指定,不夠靈活。為解決此問題,提出新的IPPDO算法,使用隱式分布建模參數,實現結構化隨機性。實驗顯示,IPPDO在探索和樣本效率方面優於其他深度強化學習算法。 PubMed DOI

RL中的「人在迴圈中」(Human-in-the-loop)讓人類專家給代理建議,提高樣本效率。介紹了Q值依賴策略(QDP)的HRL演算法,適用於連續動作空間,人類專家在早期學習階段有選擇性提建議。QDP框架應用於TD3演算法進行比較。當Q網路輸出差異超過閾值,人類專家提建議。優勢損失函數引導評論網路更新。在OpenAI gym實驗中,QDP-HRL增強了連續動作任務的學習速度和表現。 PubMed DOI

經驗重播在強化學習中很重要,可以提高資料利用率。優先經驗重播(PER)更進一步提升採樣效率,根據價值排序經驗。現有排序演算法未考慮經驗價值變化。本文介紹新演算法PERDP,根據平均優先級別動態調整排序。PERDP使用當前網路評估價值。在OpenAI Gym實驗中,PERDP比PER更快達到收斂。 PubMed DOI

這篇文章介紹了一種基於分配式強化學習和策略梯度的分配式政策梯度方法。這種方法估計回報分配,而不僅僅是期望值,為政策改進提供更有價值的信息。所提出的方法增強了探索效率,有助於避免局部最優解,特別是在稀疏獎勵任務中。實驗結果顯示,這種方法在各種OpenAI-gym環境中優於基準線。 PubMed DOI

所提出的知識蒸餾增強行為轉換器(KD-BeT)框架,結合模仿學習和強化學習的優勢,旨在改善自駕車的行為決策。雖然強化學習在複雜環境中的推理能力較弱,但KD-BeT利用變壓器的上下文推理能力來增強決策。首先,透過模仿學習訓練教師模型,再利用知識蒸餾指導學生模型,提升強化學習的效率和性能。模擬結果顯示,KD-BeT在CARLA NoCrash基準測試中表現優異,特別在交通效率和駕駛安全性上超越其他方法,為解決自駕車挑戰提供了新思路。 PubMed DOI

最近的研究發現,將Transformer模型與條件策略結合,可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察,而Transformer則同時處理多個觀察,這可能影響特徵提取及決策的準確性。為了解決這些問題,我們利用預訓練模型的少量學習特性,並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息,我們能快速掌握任務特徵。實驗結果顯示,我們的方法在相關任務中表現優於基準,並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

在多目標強化學習中,代理人透過探索學習任務,但面臨稀疏的獎勵挑戰,成功經驗稀少。回顧經驗重播(HER)能從失敗中創造經驗,但均勻抽樣效率不高。為改善此問題,本文提出失敗目標感知HER(FAHER),透過分析達成目標與失敗目標的關係來提升抽樣效率。FAHER利用聚類模型對重播緩衝區進行分組,實現更具策略性的抽樣。實驗結果顯示,FAHER在OpenAI Gym的三個機器人控制任務中,樣本效率優於基準方法。 PubMed DOI

這份調查探討大型語言模型(LLMs)與強化學習(RL)的整合,強調它們在多任務學習、樣本效率和高層次任務規劃等方面的潛力。作者將LLMs在RL中的角色分為四個功能:資訊處理者、獎勵設計者、決策者和生成器,並針對每個角色提出方法論和未來研究方向。這份調查旨在澄清研究領域,並提供框架,應用於機器人、自動駕駛和能源系統等領域,並討論LLMs增強RL的潛在應用與挑戰。 PubMed DOI

提出的「情節記憶-雙重演員-評論家(EMDAC)」框架,透過情節記憶來選擇行動,有效解決深度強化學習在連續行動任務中的低樣本效率問題。EMDAC的特點包括利用情節記憶評估狀態-行動對、使用卡爾曼濾波器優化器更新記憶、狀態-行動對聚類以提升價值估計,以及引入內在獎勵機制鼓勵探索。整合進TD3算法後,EMDAC-TD3在MuJoCo環境中顯著提升樣本效率和表現,平均性能提升11.01%,超越標準TD3,表現優異。 PubMed DOI

大型語言模型(LLMs)在自然語言處理上表現優異,廣泛應用於行動計算、醫療、金融等領域,受到科技巨頭的推動。然而,這些技術也帶來安全與隱私挑戰,特別是在醫療和法律等關鍵領域。本文探討透過人類反饋進行強化學習(RLHF)的過程,並提出基於共識的獎勵框架(COBRA),有效減少惡意反饋的影響,提升模型性能。我們在情感分析和對話任務中評估COBRA,結果顯示其在獎勵準確性上顯著優於傳統方法。 PubMed DOI