原始文章

提出的「情節記憶-雙重演員-評論家(EMDAC)」框架,透過情節記憶來選擇行動,有效解決深度強化學習在連續行動任務中的低樣本效率問題。EMDAC的特點包括利用情節記憶評估狀態-行動對、使用卡爾曼濾波器優化器更新記憶、狀態-行動對聚類以提升價值估計,以及引入內在獎勵機制鼓勵探索。整合進TD3算法後,EMDAC-TD3在MuJoCo環境中顯著提升樣本效率和表現,平均性能提升11.01%,超越標準TD3,表現優異。 PubMed DOI


站上相關主題文章列表

開發了一個名為雙重並行策略迭代(DPPI)的新方法,裡面包含了耦合的策略改進機制,可以增強策略迭代算法。DPPI有兩個並行的策略迭代,每一步都會選擇更好的策略來引導策略改進,控制策略間的發散。已經證明DPPI是有效的,並且顯示新策略比舊策略更好,可以加速學習。結合DPPI和TD3提出了一個新的強化學習算法,叫做並行TD3(PTD3),在連續動作控制任務中表現出色。 PubMed DOI

這個新演算法在OpenAI Gym的連續控制任務中表現優異,能有效降低樣本複雜度,比起其他深度強化學習演算法如TD3、SAC、PPO、A2C和IPG,可降低50%-93%的樣本複雜度。這是因為它具有高效的網路結構、少量參數、適應性學習目標和混合探索策略。 PubMed DOI

RL中的「人在迴圈中」(Human-in-the-loop)讓人類專家給代理建議,提高樣本效率。介紹了Q值依賴策略(QDP)的HRL演算法,適用於連續動作空間,人類專家在早期學習階段有選擇性提建議。QDP框架應用於TD3演算法進行比較。當Q網路輸出差異超過閾值,人類專家提建議。優勢損失函數引導評論網路更新。在OpenAI gym實驗中,QDP-HRL增強了連續動作任務的學習速度和表現。 PubMed DOI

經驗重播在強化學習中很重要,可以提高資料利用率。優先經驗重播(PER)更進一步提升採樣效率,根據價值排序經驗。現有排序演算法未考慮經驗價值變化。本文介紹新演算法PERDP,根據平均優先級別動態調整排序。PERDP使用當前網路評估價值。在OpenAI Gym實驗中,PERDP比PER更快達到收斂。 PubMed DOI

隨著醫療保健中情緒監測的重要性提升,基於腦電圖(EEG)的多模態情緒識別系統逐漸受到重視。然而,日常醫療環境中獲取EEG信號的困難,常導致數據不完整。為了解決這個問題,研究人員提出了一個多教師知識蒸餾框架,結合大型語言模型(LLM)來增強特徵學習。透過LLM提取時間特徵,圖卷積神經網絡則負責空間特徵,並引入因果遮罩和信心指標以提升特徵轉移的相關性。實驗結果顯示,該模型在不完整模態下表現優於現有方法,顯示大型模型在醫療情緒識別中的潛力。相關代碼已公開,網址為 https://github.com/yuzhezhangEEG/LM-KD。 PubMed DOI

在離線增強學習中,探索與利用的平衡對政策表現和樣本效率至關重要。為了解決這個問題,提出了一種新演算法,叫做歷史決策正則化最大熵(HDMRME)。這個演算法結合了最大熵增強學習框架和歷史決策正則化,旨在提升政策的利用能力。理論分析證明了其收斂性,並探討了探索與利用的權衡。實驗結果顯示,HDMRME在Mujoco和OpenAI Gym的多個連續動作控制任務中,樣本效率和整體表現均優於其他先進演算法。 PubMed DOI

所提出的知識蒸餾增強行為轉換器(KD-BeT)框架,結合模仿學習和強化學習的優勢,旨在改善自駕車的行為決策。雖然強化學習在複雜環境中的推理能力較弱,但KD-BeT利用變壓器的上下文推理能力來增強決策。首先,透過模仿學習訓練教師模型,再利用知識蒸餾指導學生模型,提升強化學習的效率和性能。模擬結果顯示,KD-BeT在CARLA NoCrash基準測試中表現優異,特別在交通效率和駕駛安全性上超越其他方法,為解決自駕車挑戰提供了新思路。 PubMed DOI

在多目標強化學習中,代理人透過探索學習任務,但面臨稀疏的獎勵挑戰,成功經驗稀少。回顧經驗重播(HER)能從失敗中創造經驗,但均勻抽樣效率不高。為改善此問題,本文提出失敗目標感知HER(FAHER),透過分析達成目標與失敗目標的關係來提升抽樣效率。FAHER利用聚類模型對重播緩衝區進行分組,實現更具策略性的抽樣。實驗結果顯示,FAHER在OpenAI Gym的三個機器人控制任務中,樣本效率優於基準方法。 PubMed DOI

大型語言模型(LLMs)如ChatGPT的發展,催生了能處理複雜任務的代理人,但這些代理人常面臨錯誤傳播和適應性不足的挑戰。為了解決這些問題,我們提出了「任務分解與代理生成」(TDAG)框架,將複雜任務拆解為小子任務,並分配給專門的子代理,以提升適應性。 此外,我們推出了ItineraryBench基準測試,專注於旅行規劃,評估代理人在記憶、規劃和工具使用等方面的能力。實驗結果顯示,TDAG在處理複雜任務時的表現顯著優於現有基準,展現出更強的適應性和情境意識。 PubMed DOI

大型語言模型(LLMs)在醫療領域的病人反饋分析上有了顯著進展,但訓練成本高且耗時。為了解決這些問題,推出了KAdam-EnGPT4LLM優化演算法,結合卡爾曼濾波器和自適應動量估計,提升訓練效率並降低成本。這個演算法已應用於GPT4ALL模型,專注於醫療情感分析,創建了GPT4ALL-MediSentAly-KAdam。結果顯示,這個模型在準確度、召回率和運行時間等方面,表現優於傳統的微調LLMs,無論在兩個數據集上均有良好表現。 PubMed DOI