原始文章

在離線增強學習中,探索與利用的平衡對政策表現和樣本效率至關重要。為了解決這個問題,提出了一種新演算法,叫做歷史決策正則化最大熵(HDMRME)。這個演算法結合了最大熵增強學習框架和歷史決策正則化,旨在提升政策的利用能力。理論分析證明了其收斂性,並探討了探索與利用的權衡。實驗結果顯示,HDMRME在Mujoco和OpenAI Gym的多個連續動作控制任務中,樣本效率和整體表現均優於其他先進演算法。 PubMed DOI


站上相關主題文章列表

深度強化學習在複雜環境中訓練機器人挑戰重重,但最近的方法如HER和ARCHER透過事後學習重新利用失敗經驗。研究發現,調整事後學習經驗的取樣率,並採用衰減策略,能提升訓練效率。在實驗中,這種方法在兩個任務上優於HER和ARCHER,第三個任務表現相當。 PubMed DOI

強調探索在強化學習中的重要性,介紹IPPDO新算法,可加速穩定參數分布學習。透過推論方法設計客觀函數,優化參數分布,並運用多神經網路與Retrace解決高估問題。IPPDO實驗表現優異,快速獲得高獎勵且穩定,是值得採用的深度強化學習算法。 PubMed DOI

介紹了一種新的深度強化學習方法,結合了離策略和在策略數據,以改進策略優化。通過開發替代目標函數並受限制地優化,確保策略單調改進。實驗結果顯示,離策略TRPO在連續控制任務中表現優異。 PubMed DOI

越來越多人對開發分散式多智能體強化學習(MARL)算法感興趣。傳統的強化學習算法不適用於MARL。本文介紹了一個自適應卡爾曼濾波器(KF)框架,解決了深度神經網絡的缺點。實驗結果顯示,MAK-TD/SR框架在不同場景和智能體數量下表現優異。 PubMed DOI

強化學習是重要的學習方式,專注於達成目標和做決策,探索很關鍵。在簡單情境下,計數式探索有幫助,但在複雜情境下效果較差。深度強化學習常用內在動機探索,並透過情節記憶模擬人類記憶,以減少重複訪問。利用情節記憶估計經驗狀態,能改善探索效果。實驗顯示,計數準確性高,可成功應用於高維度物體檢測和追蹤。 PubMed DOI

深度強化學習的挑戰在於有效探索。貝葉斯推斷的分布表示可增強探索,但貝葶斯神經網絡參數需明確指定,不夠靈活。為解決此問題,提出新的IPPDO算法,使用隱式分布建模參數,實現結構化隨機性。實驗顯示,IPPDO在探索和樣本效率方面優於其他深度強化學習算法。 PubMed DOI

RL中的「人在迴圈中」(Human-in-the-loop)讓人類專家給代理建議,提高樣本效率。介紹了Q值依賴策略(QDP)的HRL演算法,適用於連續動作空間,人類專家在早期學習階段有選擇性提建議。QDP框架應用於TD3演算法進行比較。當Q網路輸出差異超過閾值,人類專家提建議。優勢損失函數引導評論網路更新。在OpenAI gym實驗中,QDP-HRL增強了連續動作任務的學習速度和表現。 PubMed DOI

研究團隊使用深度強化學習訓練代理人,將高頻交易信號轉換成NASDAQ股票的交易策略。他們建立了模擬環境,並運用深度對決雙Q學習與APEX架構來訓練代理人。代理人考慮當前訂單簿狀態、歷史數據和短期預測,以追求最大交易收益。研究結果顯示,強化學習代理人比基準策略更擅長學習交易策略,透過合成Alpha信號測試得出。 PubMed DOI

經驗重播在強化學習中很重要,可以提高資料利用率。優先經驗重播(PER)更進一步提升採樣效率,根據價值排序經驗。現有排序演算法未考慮經驗價值變化。本文介紹新演算法PERDP,根據平均優先級別動態調整排序。PERDP使用當前網路評估價值。在OpenAI Gym實驗中,PERDP比PER更快達到收斂。 PubMed DOI

這篇文章介紹了一種基於分配式強化學習和策略梯度的分配式政策梯度方法。這種方法估計回報分配,而不僅僅是期望值,為政策改進提供更有價值的信息。所提出的方法增強了探索效率,有助於避免局部最優解,特別是在稀疏獎勵任務中。實驗結果顯示,這種方法在各種OpenAI-gym環境中優於基準線。 PubMed DOI