原始文章

在離線增強學習中,探索與利用的平衡對政策表現和樣本效率至關重要。為了解決這個問題,提出了一種新演算法,叫做歷史決策正則化最大熵(HDMRME)。這個演算法結合了最大熵增強學習框架和歷史決策正則化,旨在提升政策的利用能力。理論分析證明了其收斂性,並探討了探索與利用的權衡。實驗結果顯示,HDMRME在Mujoco和OpenAI Gym的多個連續動作控制任務中,樣本效率和整體表現均優於其他先進演算法。 PubMed DOI


站上相關主題文章列表

所提出的知識蒸餾增強行為轉換器(KD-BeT)框架,結合模仿學習和強化學習的優勢,旨在改善自駕車的行為決策。雖然強化學習在複雜環境中的推理能力較弱,但KD-BeT利用變壓器的上下文推理能力來增強決策。首先,透過模仿學習訓練教師模型,再利用知識蒸餾指導學生模型,提升強化學習的效率和性能。模擬結果顯示,KD-BeT在CARLA NoCrash基準測試中表現優異,特別在交通效率和駕駛安全性上超越其他方法,為解決自駕車挑戰提供了新思路。 PubMed DOI

最近的研究發現,將Transformer模型與條件策略結合,可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察,而Transformer則同時處理多個觀察,這可能影響特徵提取及決策的準確性。為了解決這些問題,我們利用預訓練模型的少量學習特性,並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息,我們能快速掌握任務特徵。實驗結果顯示,我們的方法在相關任務中表現優於基準,並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

在多目標強化學習中,代理人透過探索學習任務,但面臨稀疏的獎勵挑戰,成功經驗稀少。回顧經驗重播(HER)能從失敗中創造經驗,但均勻抽樣效率不高。為改善此問題,本文提出失敗目標感知HER(FAHER),透過分析達成目標與失敗目標的關係來提升抽樣效率。FAHER利用聚類模型對重播緩衝區進行分組,實現更具策略性的抽樣。實驗結果顯示,FAHER在OpenAI Gym的三個機器人控制任務中,樣本效率優於基準方法。 PubMed DOI

這份調查探討大型語言模型(LLMs)與強化學習(RL)的整合,強調它們在多任務學習、樣本效率和高層次任務規劃等方面的潛力。作者將LLMs在RL中的角色分為四個功能:資訊處理者、獎勵設計者、決策者和生成器,並針對每個角色提出方法論和未來研究方向。這份調查旨在澄清研究領域,並提供框架,應用於機器人、自動駕駛和能源系統等領域,並討論LLMs增強RL的潛在應用與挑戰。 PubMed DOI

提出的「情節記憶-雙重演員-評論家(EMDAC)」框架,透過情節記憶來選擇行動,有效解決深度強化學習在連續行動任務中的低樣本效率問題。EMDAC的特點包括利用情節記憶評估狀態-行動對、使用卡爾曼濾波器優化器更新記憶、狀態-行動對聚類以提升價值估計,以及引入內在獎勵機制鼓勵探索。整合進TD3算法後,EMDAC-TD3在MuJoCo環境中顯著提升樣本效率和表現,平均性能提升11.01%,超越標準TD3,表現優異。 PubMed DOI

這篇論文提出DBOP-DDPG演算法,把糞金龜優化和優先經驗回放結合進DDPG,解決連續動作空間收斂慢、易卡在局部最優的問題。透過多族群搜尋提升全域最佳化能力,並用新排序取樣方式加快收斂。實驗結果顯示,收斂速度提升至少10%,累積獎勵最多高出150分。 PubMed DOI

Off-policy 強化學習常因目標策略和行為策略不同,使用重要性取樣時容易產生高變異。作者提出相對重要性取樣(RIS),用平滑參數降低變異,並首次提出 RIS-off-PAC 演算法,actor 和 critic 都用深度神經網路,只需行為策略的資料。實驗結果在 OpenAI Gym 和合成任務上表現優於或不輸現有方法。 PubMed DOI

這篇研究發現,大型語言模型在增強學習任務中,會像人類一樣出現相對價值編碼的偏誤,特別是在提示語強調比較時更明顯。這會影響它們把學到的知識應用到新情境的能力。這種偏誤不只出現在微調過的模型,連原始模型也有,提醒我們在用LLMs做決策時要特別注意。 PubMed DOI

**重點摘要:** 這項研究比較了人類、大型語言模型(LLMs)以及強化學習(RL)在一個為期多天的通勤決策遊戲中的表現,目的是評估AI取代人類決策的能力。LLMs展現出類似人類的學習能力,也能做出穩定的決策,但在團體合作、理解他人選擇,以及應用現實世界知識方面仍有困難。 PubMed DOI

這篇論文提出一套以使用者為核心的分散式AI影像生成服務架構,利用生成式擴散模型(GDMs),讓用戶能共享部分生成流程,提升效率。作者還結合大型語言模型與強化學習,模擬用戶回饋,優化主觀體驗品質(QoE)。新演算法G-DDPG能根據用戶偏好和網路狀況有效分配資源,模擬結果顯示QoE提升約15%。 PubMed DOI