Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Deep Ensemble Bootstrapped Q-Learning (Deep-EBQL)【代码复现】
Deep EBQL理论基础 原文链接 Ensemble Bootstrapping for Q Learning Deep EBQL是EBQL的深度学习版本 也即是在DQN的基础上 引入集成的思想 解决DQN过估计的问题 深度版本的EBQL
Reinforcement Learning
python
深度学习
强化学习
集成
DQN理论基础及其代码实现【Pytorch + CartPole-v0】
DQN算法的理论基础 基于动态规划方法 基于蒙特卡罗方法和基于时间差分的方法都有一个基本的前提条件 状态空间和动作空间是离散的 而且状态空间和动作空间不能太大 这些强化学习方法的基本步骤是先评估值函数 再利用值函数改善当前的策略 这时的值函
Reinforcement Learning
Pytorch
人工智能
强化学习
深度强化学习
从多臂老虎机开始学习强化学习中的探索与利用
从多臂老虎机开始学习强化学习中的探索与利用 quad 目录 从多臂老虎机开始学习强化学习中的探索与利用 多臂老虎机问题 形式化描述 估计期望奖励 代码实现 策略中的探索与利用 epsilo
Reinforcement Learning
算法
python
深度学习
Dyna-Q算法的理论基础及其代码实践【CliffWalking-v0】
Dyna Q 理论基础 强化学习中 模型 通常指与智能体交互的环境模型 即对环境的状态转移概率和奖励函数进行建模 根据是否具有环境模型 强化学习算法分为两种 基于模型的强化学习 model based 无模型的强化学习根据智能体与环境交互采
Reinforcement Learning
算法
人工智能
python
强化学习
基于动态规划的强化学习方法
quad quad 基于动态规划的强化学习方法 quad 动态规划 dynamic programming 是程序设计算法中非常重要的内容 能够高效解决一些经典问题
Reinforcement Learning
动态规划
算法
深度学习
DoubleDQN的理论基础及其代码实现【Pytorch + Pendulum-v0】
Double DQN 理论基础 普通的 DQN 算法通常会导致对值的过高估计 overestimation 传统 DQN 优化的 TD 误差目标为 r max
Reinforcement Learning
Pytorch
深度学习
强化学习
深度强化学习
基于蒙特卡洛的强化学习方法【附带代码实现】
基于蒙特卡洛的强化学习方法 蒙特卡洛方法 Monte Carlo methods 也被称为统计模拟方法 是一种基于概率统计的数值计算方法 运用蒙特卡洛方法时 我们通常使用重复随机抽样 然后运用概率统计方法来从抽样结果中归纳出我们想求的目标的
Reinforcement Learning
算法
强化学习
蒙特卡罗
Dueling DQN的理论基础及其代码实现【Pytorch + Pendulum-v0】
Dueling DQN 理论基础 Dueling DQN是一种基于DQN的改进算法 它的主要突破点在于利用模型结构将值函数表示成更细致的形式 使得模型能够拥有更好的表现 首先我们可以给出如下公式并定义一个新变量 q s t
Reinforcement Learning
深度学习
强化学习
深度强化学习
DQN