Offline RL

离线强化学习(Offline RL)系列3: (算法篇)策略约束-BCQ算法详解与实现

更新日志论文信息 Off Policy Deep Reinforcement Learning without Exploration Github 本文主要介绍的是连续空间状态下的策略约束的BCQ算法作者首先就offline RL中容

离线强化学习系列博客 离线强化学习 Offline RL BCQ算法

标题 Bootstrapped Transformer for Offline Reinforcement Learning 文章链接 Bootstrapped Transformer for Offline Reinforcement L

论文理解 Boot Offline RL 离线强化学习 TT

论文原文 https offline rl neurips github io 2021 pdf 33 pdf 我们知道在强化学习中不同的样本选择对算法的影响比较大最典型的莫过于使用优先级经验回放 PER 技术提高算法对采样样本的选择效

离线强化学习系列博客 离线强化学习 Offline RL 经验回放 强化学习采样效率