Prioritized experience replay based on dynamics priority.
基於動態優先權的優先經驗重播。 Sci Rep 2024-03-15

經驗重播在強化學習中很重要，可以提高資料利用率。優先經驗重播（PER）更進一步提升採樣效率，根據價值排序經驗。現有排序演算法未考慮經驗價值變化。本文介紹新演算法PERDP，根據平均優先級別動態調整排序。PERDP使用當前網路評估價值。在OpenAI Gym實驗中，PERDP比PER更快達到收斂。 PubMed DOI

GeneWorker: An end-to-end robotic reinforcement learning approach with collaborative generator and worker networks.
GeneWorker：具有協作生成器和工作者網絡的端對端機器人強化學習方法。 Neural Netw 2024-06-27

強化學習加入技能概念，讓自主代理更有意義。GeneWorker算法結合了新的神經技能表示法，透過生成器和工作者網絡協作，提升機器人在任務上的成功率。這種方法不僅能夠靈活地適應不同環境，還能夠比以往方法提高至少54%的成功率。 PubMed DOI

Historical Decision-Making Regularized Maximum Entropy Reinforcement Learning.
歷史決策制定的正則化最大熵強化學習。 IEEE Trans Neural Netw Learn Syst 2024-10-29

在離線增強學習中，探索與利用的平衡對政策表現和樣本效率至關重要。為了解決這個問題，提出了一種新演算法，叫做歷史決策正則化最大熵（HDMRME）。這個演算法結合了最大熵增強學習框架和歷史決策正則化，旨在提升政策的利用能力。理論分析證明了其收斂性，並探討了探索與利用的權衡。實驗結果顯示，HDMRME在Mujoco和OpenAI Gym的多個連續動作控制任務中，樣本效率和整體表現均優於其他先進演算法。 PubMed DOI

Offline prompt reinforcement learning method based on feature extraction.
基於特徵提取的離線增強學習方法。 PeerJ Comput Sci 2025-02-03

最近的研究發現，將Transformer模型與條件策略結合，可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察，而Transformer則同時處理多個觀察，這可能影響特徵提取及決策的準確性。為了解決這些問題，我們利用預訓練模型的少量學習特性，並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息，我們能快速掌握任務特徵。實驗結果顯示，我們的方法在相關任務中表現優於基準，並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

A novel voice in head actor critic reinforcement learning with human feedback framework for enhanced robot navigation.
一種新穎的頭腦聲音演員評論家強化學習框架，結合人類反饋以增強機器人導航。 Sci Rep 2025-02-28

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架，利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs，並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能，讓使用者能用自然語言互動。為了確保安全性，系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%，顯示出在認知機器人技術上的重大進展。 PubMed DOI

Episodic Memory-Double Actor-Critic Twin Delayed Deep Deterministic Policy Gradient.
情節記憶-雙重演員-評論家雙重延遲深度確定性策略梯度。 Neural Netw 2025-03-06

提出的「情節記憶-雙重演員-評論家（EMDAC）」框架，透過情節記憶來選擇行動，有效解決深度強化學習在連續行動任務中的低樣本效率問題。EMDAC的特點包括利用情節記憶評估狀態-行動對、使用卡爾曼濾波器優化器更新記憶、狀態-行動對聚類以提升價值估計，以及引入內在獎勵機制鼓勵探索。整合進TD3算法後，EMDAC-TD3在MuJoCo環境中顯著提升樣本效率和表現，平均性能提升11.01%，超越標準TD3，表現優異。 PubMed DOI

原始文章

站上相關主題文章列表