原始文章

在多目標強化學習中,代理人透過探索學習任務,但面臨稀疏的獎勵挑戰,成功經驗稀少。回顧經驗重播(HER)能從失敗中創造經驗,但均勻抽樣效率不高。為改善此問題,本文提出失敗目標感知HER(FAHER),透過分析達成目標與失敗目標的關係來提升抽樣效率。FAHER利用聚類模型對重播緩衝區進行分組,實現更具策略性的抽樣。實驗結果顯示,FAHER在OpenAI Gym的三個機器人控制任務中,樣本效率優於基準方法。 PubMed DOI


站上相關主題文章列表

經驗重播在強化學習中很重要,可以提高資料利用率。優先經驗重播(PER)更進一步提升採樣效率,根據價值排序經驗。現有排序演算法未考慮經驗價值變化。本文介紹新演算法PERDP,根據平均優先級別動態調整排序。PERDP使用當前網路評估價值。在OpenAI Gym實驗中,PERDP比PER更快達到收斂。 PubMed DOI

強化學習加入技能概念,讓自主代理更有意義。GeneWorker算法結合了新的神經技能表示法,透過生成器和工作者網絡協作,提升機器人在任務上的成功率。這種方法不僅能夠靈活地適應不同環境,還能夠比以往方法提高至少54%的成功率。 PubMed DOI

在離線增強學習中,探索與利用的平衡對政策表現和樣本效率至關重要。為了解決這個問題,提出了一種新演算法,叫做歷史決策正則化最大熵(HDMRME)。這個演算法結合了最大熵增強學習框架和歷史決策正則化,旨在提升政策的利用能力。理論分析證明了其收斂性,並探討了探索與利用的權衡。實驗結果顯示,HDMRME在Mujoco和OpenAI Gym的多個連續動作控制任務中,樣本效率和整體表現均優於其他先進演算法。 PubMed DOI

最近的研究發現,將Transformer模型與條件策略結合,可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察,而Transformer則同時處理多個觀察,這可能影響特徵提取及決策的準確性。為了解決這些問題,我們利用預訓練模型的少量學習特性,並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息,我們能快速掌握任務特徵。實驗結果顯示,我們的方法在相關任務中表現優於基準,並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架,利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs,並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能,讓使用者能用自然語言互動。為了確保安全性,系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%,顯示出在認知機器人技術上的重大進展。 PubMed DOI

提出的「情節記憶-雙重演員-評論家(EMDAC)」框架,透過情節記憶來選擇行動,有效解決深度強化學習在連續行動任務中的低樣本效率問題。EMDAC的特點包括利用情節記憶評估狀態-行動對、使用卡爾曼濾波器優化器更新記憶、狀態-行動對聚類以提升價值估計,以及引入內在獎勵機制鼓勵探索。整合進TD3算法後,EMDAC-TD3在MuJoCo環境中顯著提升樣本效率和表現,平均性能提升11.01%,超越標準TD3,表現優異。 PubMed DOI