Knowledge Distillation-Enhanced Behavior Transformer for Decision-Making of Autonomous Driving.
知識蒸餾增強的行為轉換器在自動駕駛決策中的應用。 Sensors (Basel) 2025-01-11

所提出的知識蒸餾增強行為轉換器（KD-BeT）框架，結合模仿學習和強化學習的優勢，旨在改善自駕車的行為決策。雖然強化學習在複雜環境中的推理能力較弱，但KD-BeT利用變壓器的上下文推理能力來增強決策。首先，透過模仿學習訓練教師模型，再利用知識蒸餾指導學生模型，提升強化學習的效率和性能。模擬結果顯示，KD-BeT在CARLA NoCrash基準測試中表現優異，特別在交通效率和駕駛安全性上超越其他方法，為解決自駕車挑戰提供了新思路。 PubMed DOI

Offline prompt reinforcement learning method based on feature extraction.
基於特徵提取的離線增強學習方法。 PeerJ Comput Sci 2025-02-03

最近的研究發現，將Transformer模型與條件策略結合，可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察，而Transformer則同時處理多個觀察，這可能影響特徵提取及決策的準確性。為了解決這些問題，我們利用預訓練模型的少量學習特性，並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息，我們能快速掌握任務特徵。實驗結果顯示，我們的方法在相關任務中表現優於基準，並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

Clustering-based Failed goal Aware Hindsight Experience Replay.
基於聚類的失敗目標感知回顧經驗重播。 PeerJ Comput Sci 2025-02-03

在多目標強化學習中，代理人透過探索學習任務，但面臨稀疏的獎勵挑戰，成功經驗稀少。回顧經驗重播（HER）能從失敗中創造經驗，但均勻抽樣效率不高。為改善此問題，本文提出失敗目標感知HER（FAHER），透過分析達成目標與失敗目標的關係來提升抽樣效率。FAHER利用聚類模型對重播緩衝區進行分組，實現更具策略性的抽樣。實驗結果顯示，FAHER在OpenAI Gym的三個機器人控制任務中，樣本效率優於基準方法。 PubMed DOI

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods.
大型語言模型增強強化學習的調查：概念、分類法與方法。 IEEE Trans Neural Netw Learn Syst 2025-03-03

這份調查探討大型語言模型（LLMs）與強化學習（RL）的整合，強調它們在多任務學習、樣本效率和高層次任務規劃等方面的潛力。作者將LLMs在RL中的角色分為四個功能：資訊處理者、獎勵設計者、決策者和生成器，並針對每個角色提出方法論和未來研究方向。這份調查旨在澄清研究領域，並提供框架，應用於機器人、自動駕駛和能源系統等領域，並討論LLMs增強RL的潛在應用與挑戰。 PubMed DOI

Episodic Memory-Double Actor-Critic Twin Delayed Deep Deterministic Policy Gradient.
情節記憶-雙重演員-評論家雙重延遲深度確定性策略梯度。 Neural Netw 2025-03-06

提出的「情節記憶-雙重演員-評論家（EMDAC）」框架，透過情節記憶來選擇行動，有效解決深度強化學習在連續行動任務中的低樣本效率問題。EMDAC的特點包括利用情節記憶評估狀態-行動對、使用卡爾曼濾波器優化器更新記憶、狀態-行動對聚類以提升價值估計，以及引入內在獎勵機制鼓勵探索。整合進TD3算法後，EMDAC-TD3在MuJoCo環境中顯著提升樣本效率和表現，平均性能提升11.01%，超越標準TD3，表現優異。 PubMed DOI

Deep deterministic policy gradient algorithm based on dung beetle optimization and priority experience replay mechanism.
基於糞金龜優化與優先經驗回放機制的深度確定性策略梯度演算法 Sci Rep 2025-04-22

這篇論文提出DBOP-DDPG演算法，把糞金龜優化和優先經驗回放結合進DDPG，解決連續動作空間收斂慢、易卡在局部最優的問題。透過多族群搜尋提升全域最佳化能力，並用新排序取樣方式加快收斂。實驗結果顯示，收斂速度提升至少10%，累積獎勵最多高出150分。 PubMed DOI

Relative importance sampling for off-policy actor-critic in deep reinforcement learning.
深度強化學習中用於離策略 actor-critic 的相對重要性取樣 Sci Rep 2025-04-24

Off-policy 強化學習常因目標策略和行為策略不同，使用重要性取樣時容易產生高變異。作者提出相對重要性取樣（RIS），用平滑參數降低變異，並首次提出 RIS-off-PAC 演算法，actor 和 critic 都用深度神經網路，只需行為策略的資料。實驗結果在 OpenAI Gym 和合成任務上表現優於或不輸現有方法。 PubMed DOI

Relative Value Encoding in Large Language Models: A Multi-Task, Multi-Model Investigation.
大型語言模型中的相對價值編碼：多任務、多模型的探討 Open Mind (Camb) 2025-06-06

這篇研究發現，大型語言模型在增強學習任務中，會像人類一樣出現相對價值編碼的偏誤，特別是在提示語強調比較時更明顯。這會影響它們把學到的知識應用到新情境的能力。這種偏誤不只出現在微調過的模型，連原始模型也有，提醒我們在用LLMs做決策時要特別注意。 PubMed DOI

Comparing AI and human decision-making mechanisms in daily collaborative experiments.
AI 與人類在日常協作實驗中決策機制之比較 iScience 2025-06-16

**重點摘要：** 這項研究比較了人類、大型語言模型（LLMs）以及強化學習（RL）在一個為期多天的通勤決策遊戲中的表現，目的是評估AI取代人類決策的能力。LLMs展現出類似人類的學習能力，也能做出穩定的決策，但在團體合作、理解他人選擇，以及應用現實世界知識方面仍有困難。 PubMed DOI

Reinforcement Learning With LLMs Interaction For Distributed Diffusion Model Services.
分散式擴散模型服務中結合 LLMs 互動的強化學習 IEEE Trans Pattern Anal Mach Intell 2025-06-30

這篇論文提出一套以使用者為核心的分散式AI影像生成服務架構，利用生成式擴散模型（GDMs），讓用戶能共享部分生成流程，提升效率。作者還結合大型語言模型與強化學習，模擬用戶回饋，優化主觀體驗品質（QoE）。新演算法G-DDPG能根據用戶偏好和網路狀況有效分配資源，模擬結果顯示QoE提升約15%。 PubMed DOI

原始文章

站上相關主題文章列表