离线强化学习系列博客

离线强化学习(Offline RL)系列3: (算法篇)策略约束-BCQ算法详解与实现

更新日志论文信息 Off Policy Deep Reinforcement Learning without Exploration Github 本文主要介绍的是连续空间状态下的策略约束的BCQ算法作者首先就offline RL中容

离线强化学习系列博客 离线强化学习 Offline RL BCQ算法

Arxiv原文 S4RL Surprisingly Simple Self Supervision for Offline Reinforcement Learning in Robotics 本文是由多伦多大学斯坦福大学和Nvidia三

离线强化学习系列博客 离线强化学习 数据增强 Data Augument 强化学习

论文原文 https offline rl neurips github io 2021 pdf 33 pdf 我们知道在强化学习中不同的样本选择对算法的影响比较大最典型的莫过于使用优先级经验回放 PER 技术提高算法对采样样本的选择效

离线强化学习系列博客 离线强化学习 Offline RL 经验回放 强化学习采样效率