原始文章

提出的「情節記憶-雙重演員-評論家(EMDAC)」框架,透過情節記憶來選擇行動,有效解決深度強化學習在連續行動任務中的低樣本效率問題。EMDAC的特點包括利用情節記憶評估狀態-行動對、使用卡爾曼濾波器優化器更新記憶、狀態-行動對聚類以提升價值估計,以及引入內在獎勵機制鼓勵探索。整合進TD3算法後,EMDAC-TD3在MuJoCo環境中顯著提升樣本效率和表現,平均性能提升11.01%,超越標準TD3,表現優異。 PubMed DOI


站上相關主題文章列表

所提出的知識蒸餾增強行為轉換器(KD-BeT)框架,結合模仿學習和強化學習的優勢,旨在改善自駕車的行為決策。雖然強化學習在複雜環境中的推理能力較弱,但KD-BeT利用變壓器的上下文推理能力來增強決策。首先,透過模仿學習訓練教師模型,再利用知識蒸餾指導學生模型,提升強化學習的效率和性能。模擬結果顯示,KD-BeT在CARLA NoCrash基準測試中表現優異,特別在交通效率和駕駛安全性上超越其他方法,為解決自駕車挑戰提供了新思路。 PubMed DOI

最近的研究發現,將Transformer模型與條件策略結合,可以有效提升離線強化學習的表現。傳統強化學習是依序接收觀察,而Transformer則同時處理多個觀察,這可能影響特徵提取及決策的準確性。為了解決這些問題,我們利用預訓練模型的少量學習特性,並結合提示學習來改善即時政策調整。透過從離線數據中抽樣特定信息,我們能快速掌握任務特徵。實驗結果顯示,我們的方法在相關任務中表現優於基準,並提升了對新環境的泛化能力及決策的穩定性。 PubMed DOI

在多目標強化學習中,代理人透過探索學習任務,但面臨稀疏的獎勵挑戰,成功經驗稀少。回顧經驗重播(HER)能從失敗中創造經驗,但均勻抽樣效率不高。為改善此問題,本文提出失敗目標感知HER(FAHER),透過分析達成目標與失敗目標的關係來提升抽樣效率。FAHER利用聚類模型對重播緩衝區進行分組,實現更具策略性的抽樣。實驗結果顯示,FAHER在OpenAI Gym的三個機器人控制任務中,樣本效率優於基準方法。 PubMed DOI

大型語言模型(LLMs)如ChatGPT的發展,催生了能處理複雜任務的代理人,但這些代理人常面臨錯誤傳播和適應性不足的挑戰。為了解決這些問題,我們提出了「任務分解與代理生成」(TDAG)框架,將複雜任務拆解為小子任務,並分配給專門的子代理,以提升適應性。 此外,我們推出了ItineraryBench基準測試,專注於旅行規劃,評估代理人在記憶、規劃和工具使用等方面的能力。實驗結果顯示,TDAG在處理複雜任務時的表現顯著優於現有基準,展現出更強的適應性和情境意識。 PubMed DOI

大型語言模型(LLMs)在醫療領域的病人反饋分析上有了顯著進展,但訓練成本高且耗時。為了解決這些問題,推出了KAdam-EnGPT4LLM優化演算法,結合卡爾曼濾波器和自適應動量估計,提升訓練效率並降低成本。這個演算法已應用於GPT4ALL模型,專注於醫療情感分析,創建了GPT4ALL-MediSentAly-KAdam。結果顯示,這個模型在準確度、召回率和運行時間等方面,表現優於傳統的微調LLMs,無論在兩個數據集上均有良好表現。 PubMed DOI

這篇論文提出DBOP-DDPG演算法,把糞金龜優化和優先經驗回放結合進DDPG,解決連續動作空間收斂慢、易卡在局部最優的問題。透過多族群搜尋提升全域最佳化能力,並用新排序取樣方式加快收斂。實驗結果顯示,收斂速度提升至少10%,累積獎勵最多高出150分。 PubMed DOI

Off-policy 強化學習常因目標策略和行為策略不同,使用重要性取樣時容易產生高變異。作者提出相對重要性取樣(RIS),用平滑參數降低變異,並首次提出 RIS-off-PAC 演算法,actor 和 critic 都用深度神經網路,只需行為策略的資料。實驗結果在 OpenAI Gym 和合成任務上表現優於或不輸現有方法。 PubMed DOI

這篇論文提出一種全新的高效轉移學習方法,專門用在視覺-語言模型。它結合了兩種特徵調整器,並利用大型語言模型自動產生更精細、具情境的提示,取代傳統模板化文字。這讓模型能更準確分辨不同類別,在11個資料集上都拿下最佳成績。程式碼和提示內容可在 GitHub 查詢。 PubMed DOI

這項研究提出用輔助交叉注意力網路(ACAN)來幫AI代理人挑選最相關的記憶,並首次用大型語言模型(LLM)來訓練這套記憶檢索系統。這種做法能讓代理人在模擬環境中表現更穩定、反應更靈活,對提升生成式AI代理人的記憶管理和行為表現很有幫助。 PubMed DOI

這篇論文提出一套以使用者為核心的分散式AI影像生成服務架構,利用生成式擴散模型(GDMs),讓用戶能共享部分生成流程,提升效率。作者還結合大型語言模型與強化學習,模擬用戶回饋,優化主觀體驗品質(QoE)。新演算法G-DDPG能根據用戶偏好和網路狀況有效分配資源,模擬結果顯示QoE提升約15%。 PubMed DOI