Dual Parallel Policy Iteration With Coupled Policy Improvement.
雙重平行政策迭代與耦合政策改進。 IEEE Trans Neural Netw Learn Syst 2024-03-01

開發了一個名為雙重並行策略迭代（DPPI）的新方法，裡面包含了耦合的策略改進機制，可以增強策略迭代算法。DPPI有兩個並行的策略迭代，每一步都會選擇更好的策略來引導策略改進，控制策略間的發散。已經證明DPPI是有效的，並且顯示新策略比舊策略更好，可以加速學習。結合DPPI和TD3提出了一個新的強化學習算法，叫做並行TD3（PTD3），在連續動作控制任務中表現出色。 PubMed DOI

Stochastic Integrated Actor-Critic for Deep Reinforcement Learning.
深度強化學習的隨機整合演員-評論家模型。 IEEE Trans Neural Netw Learn Syst 2024-02-21

這個新演算法在OpenAI Gym的連續控制任務中表現優異，能有效降低樣本複雜度，比起其他深度強化學習演算法如TD3、SAC、PPO、A2C和IPG，可降低50%-93%的樣本複雜度。這是因為它具有高效的網路結構、少量參數、適應性學習目標和混合探索策略。 PubMed DOI

Human-in-the-Loop Reinforcement Learning in Continuous-Action Space.
連續動作空間中的人機協同強化學習。 IEEE Trans Neural Netw Learn Syst 2024-02-15

RL中的「人在迴圈中」（Human-in-the-loop）讓人類專家給代理建議，提高樣本效率。介紹了Q值依賴策略（QDP）的HRL演算法，適用於連續動作空間，人類專家在早期學習階段有選擇性提建議。QDP框架應用於TD3演算法進行比較。當Q網路輸出差異超過閾值，人類專家提建議。優勢損失函數引導評論網路更新。在OpenAI gym實驗中，QDP-HRL增強了連續動作任務的學習速度和表現。 PubMed DOI

Prioritized experience replay based on dynamics priority.
基於動態優先權的優先經驗重播。 Sci Rep 2024-03-15

經驗重播在強化學習中很重要，可以提高資料利用率。優先經驗重播（PER）更進一步提升採樣效率，根據價值排序經驗。現有排序演算法未考慮經驗價值變化。本文介紹新演算法PERDP，根據平均優先級別動態調整排序。PERDP使用當前網路評估價值。在OpenAI Gym實驗中，PERDP比PER更快達到收斂。 PubMed DOI

LLM-Enhanced Multi-Teacher Knowledge Distillation for Modality-Incomplete Emotion Recognition in Daily Healthcare.
LLM增強的多教師知識蒸餾於日常醫療中不完整模態情感識別的應用。 IEEE J Biomed Health Inform 2024-09-30

隨著醫療保健中情緒監測的重要性提升，基於腦電圖（EEG）的多模態情緒識別系統逐漸受到重視。然而，日常醫療環境中獲取EEG信號的困難，常導致數據不完整。為了解決這個問題，研究人員提出了一個多教師知識蒸餾框架，結合大型語言模型（LLM）來增強特徵學習。透過LLM提取時間特徵，圖卷積神經網絡則負責空間特徵，並引入因果遮罩和信心指標以提升特徵轉移的相關性。實驗結果顯示，該模型在不完整模態下表現優於現有方法，顯示大型模型在醫療情緒識別中的潛力。相關代碼已公開，網址為 https://github.com/yuzhezhangEEG/LM-KD。 PubMed DOI

Historical Decision-Making Regularized Maximum Entropy Reinforcement Learning.
歷史決策制定的正則化最大熵強化學習。 IEEE Trans Neural Netw Learn Syst 2024-10-29

在離線增強學習中，探索與利用的平衡對政策表現和樣本效率至關重要。為了解決這個問題，提出了一種新演算法，叫做歷史決策正則化最大熵（HDMRME）。這個演算法結合了最大熵增強學習框架和歷史決策正則化，旨在提升政策的利用能力。理論分析證明了其收斂性，並探討了探索與利用的權衡。實驗結果顯示，HDMRME在Mujoco和OpenAI Gym的多個連續動作控制任務中，樣本效率和整體表現均優於其他先進演算法。 PubMed DOI

Knowledge Distillation-Enhanced Behavior Transformer for Decision-Making of Autonomous Driving.
知識蒸餾增強的行為轉換器在自動駕駛決策中的應用。 Sensors (Basel) 2025-01-11

所提出的知識蒸餾增強行為轉換器（KD-BeT）框架，結合模仿學習和強化學習的優勢，旨在改善自駕車的行為決策。雖然強化學習在複雜環境中的推理能力較弱，但KD-BeT利用變壓器的上下文推理能力來增強決策。首先，透過模仿學習訓練教師模型，再利用知識蒸餾指導學生模型，提升強化學習的效率和性能。模擬結果顯示，KD-BeT在CARLA NoCrash基準測試中表現優異，特別在交通效率和駕駛安全性上超越其他方法，為解決自駕車挑戰提供了新思路。 PubMed DOI

Clustering-based Failed goal Aware Hindsight Experience Replay.
基於聚類的失敗目標感知回顧經驗重播。 PeerJ Comput Sci 2025-02-03

在多目標強化學習中，代理人透過探索學習任務，但面臨稀疏的獎勵挑戰，成功經驗稀少。回顧經驗重播（HER）能從失敗中創造經驗，但均勻抽樣效率不高。為改善此問題，本文提出失敗目標感知HER（FAHER），透過分析達成目標與失敗目標的關係來提升抽樣效率。FAHER利用聚類模型對重播緩衝區進行分組，實現更具策略性的抽樣。實驗結果顯示，FAHER在OpenAI Gym的三個機器人控制任務中，樣本效率優於基準方法。 PubMed DOI

TDAG: A multi-agent framework based on dynamic Task Decomposition and Agent Generation.
TDAG：一個基於動態任務分解和代理生成的多代理框架。 Neural Netw 2025-02-04

大型語言模型（LLMs）如ChatGPT的發展，催生了能處理複雜任務的代理人，但這些代理人常面臨錯誤傳播和適應性不足的挑戰。為了解決這些問題，我們提出了「任務分解與代理生成」（TDAG）框架，將複雜任務拆解為小子任務，並分配給專門的子代理，以提升適應性。此外，我們推出了ItineraryBench基準測試，專注於旅行規劃，評估代理人在記憶、規劃和工具使用等方面的能力。實驗結果顯示，TDAG在處理複雜任務時的表現顯著優於現有基準，展現出更強的適應性和情境意識。 PubMed DOI

Kalman-based Adaptive Moment Estimation Optimisation Algorithm to Enhance GPT in LLMs for Medical Sentiment Analysis of Patient Health-related Feedback.
基於卡爾曼的自適應動量估計優化算法以增強大型語言模型中的GPT，用於醫療情感分析患者健康相關反饋。 IEEE J Biomed Health Inform 2025-03-03

大型語言模型（LLMs）在醫療領域的病人反饋分析上有了顯著進展，但訓練成本高且耗時。為了解決這些問題，推出了KAdam-EnGPT4LLM優化演算法，結合卡爾曼濾波器和自適應動量估計，提升訓練效率並降低成本。這個演算法已應用於GPT4ALL模型，專注於醫療情感分析，創建了GPT4ALL-MediSentAly-KAdam。結果顯示，這個模型在準確度、召回率和運行時間等方面，表現優於傳統的微調LLMs，無論在兩個數據集上均有良好表現。 PubMed DOI

原始文章

站上相關主題文章列表