A novel voice in head actor critic reinforcement learning with human feedback framework for enhanced robot navigation.
一種新穎的頭腦聲音演員評論家強化學習框架,結合人類反饋以增強機器人導航。
Sci Rep 2025-02-28
這項工作介紹了一個名為 Voice in Head (ViH) 的新框架,利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs,並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能,讓使用者能用自然語言互動。為了確保安全性,系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%,顯示出在認知機器人技術上的重大進展。
PubMedDOI
Deep deterministic policy gradient algorithm based on dung beetle optimization and priority experience replay mechanism.
基於糞金龜優化與優先經驗回放機制的深度確定性策略梯度演算法
Sci Rep 2025-04-22
Helpful, harmless, honest? Sociotechnical limits of AI alignment and safety through Reinforcement Learning from Human Feedback.
有益、無害、誠實?透過人類回饋強化學習(Reinforcement Learning from Human Feedback, RLHF)實現 AI 對齊與安全性的社會技術極限
Ethics Inf Technol 2025-06-09
這篇論文批評現有讓 AI 對齊人類價值的方法(像 RLHF),認為只追求「有幫助、無害、誠實」不夠全面,甚至會互相衝突。作者強調,AI 安全不能只靠技術,還要結合倫理、制度和政治等社會層面來考量。
PubMedDOI