BCQ算法

离线强化学习(Offline RL)系列3: (算法篇)策略约束-BCQ算法详解与实现

更新日志论文信息 Off Policy Deep Reinforcement Learning without Exploration Github 本文主要介绍的是连续空间状态下的策略约束的BCQ算法作者首先就offline RL中容

离线强化学习系列博客 离线强化学习 Offline RL BCQ算法