原始文章

在多目標強化學習中,代理人透過探索學習任務,但面臨稀疏的獎勵挑戰,成功經驗稀少。回顧經驗重播(HER)能從失敗中創造經驗,但均勻抽樣效率不高。為改善此問題,本文提出失敗目標感知HER(FAHER),透過分析達成目標與失敗目標的關係來提升抽樣效率。FAHER利用聚類模型對重播緩衝區進行分組,實現更具策略性的抽樣。實驗結果顯示,FAHER在OpenAI Gym的三個機器人控制任務中,樣本效率優於基準方法。 PubMed DOI


站上相關主題文章列表

最近的研究發現,將Transformer模型與條件策略結合,可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察,而Transformer則同時處理多個觀察,這可能影響特徵提取及決策的準確性。為了解決這些問題,我們利用預訓練模型的少量學習特性,並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息,我們能快速掌握任務特徵。實驗結果顯示,我們的方法在相關任務中表現優於基準,並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架,利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs,並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能,讓使用者能用自然語言互動。為了確保安全性,系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%,顯示出在認知機器人技術上的重大進展。 PubMed DOI

提出的「情節記憶-雙重演員-評論家(EMDAC)」框架,透過情節記憶來選擇行動,有效解決深度強化學習在連續行動任務中的低樣本效率問題。EMDAC的特點包括利用情節記憶評估狀態-行動對、使用卡爾曼濾波器優化器更新記憶、狀態-行動對聚類以提升價值估計,以及引入內在獎勵機制鼓勵探索。整合進TD3算法後,EMDAC-TD3在MuJoCo環境中顯著提升樣本效率和表現,平均性能提升11.01%,超越標準TD3,表現優異。 PubMed DOI

這篇論文提出DBOP-DDPG演算法,把糞金龜優化和優先經驗回放結合進DDPG,解決連續動作空間收斂慢、易卡在局部最優的問題。透過多族群搜尋提升全域最佳化能力,並用新排序取樣方式加快收斂。實驗結果顯示,收斂速度提升至少10%,累積獎勵最多高出150分。 PubMed DOI

這篇論文批評現有讓 AI 對齊人類價值的方法(像 RLHF),認為只追求「有幫助、無害、誠實」不夠全面,甚至會互相衝突。作者強調,AI 安全不能只靠技術,還要結合倫理、制度和政治等社會層面來考量。 PubMed DOI