RL

2023-10-26

DQN Framework

在这里插入图片描述

  1. The agent interacts with the environment to generate next state, reward and termination information, which will be stored in a replay buffer.

Agent与环境交互,产生下一个状态、奖励和终止等信息,并将这些信息存储在回放缓冲区中。

  1. Sample from the buffer, calculate the loss and optimize the model.

从缓冲区采样,计算损耗并优化模型

Application

1.1 Cartpole Introduction

在这里插入图片描述

  • action spaces: left or right

动作空间:向左或者向右

  • state spaces:
    • position of the cart on the track (小车在轨的位置)
    • angle of the pole with the vertical (杆与竖直方向的夹角)
    • cart velocity (小车速度)
    • rate of change of the angle (角度变化率)
  • tips
    • the reward boundary of cartpole-v0 is 200, and that of cartpole-v1 is 500.

cartpole-v0的奖励边界是200,cartpole-v1的奖励边界是500。

1.2 Code

1.3 Result

  • episode reward
    在这里插入图片描述
  • mean reward
    在这里插入图片描述

Reference

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

RL 的相关文章

  • 有模型强化学习和免模型强化学习有什么区别?

    有模型强化学习 Model Based Reinforcement Learning 和无模型强化学习 Model Free Reinforcement Learning 是两种不同的强化学习方法 有模型强化学习是指 智能体在学习过程中能够
  • 强化学习笔记

    强化学习笔记 简介 本文是根据 Sutton的经典书籍 Reinforcement Learning An Introduction 前三章内容整理的笔记 枯燥预警 本文侧重对强化学习概念的理论分析 在基本概念上的剖析较为详细 也就是说会比
  • 强化学习代码实战入门

    这是一个易理解的 demo 300行左右 可以作为RL的入门代码 辅助基础公式的理解 这个是我自己的学习笔记 三连留下邮箱 可以直接发送完整的代码标注文件 如有错误 麻烦指出 我已经蛮久没写博了 上一篇RL博客也快一年半了 很久没做这一块了
  • 多智能体强化学习基础知识(入门级)

    参考资料 王树森 深度强化学习 https github com wangshusen DRL
  • 多智能体强化学习入门(六)——MFMARL算法(Mean Field Multi-Agent RL)

    本节内容见https zhuanlan zhihu com p 56049023
  • 共轭梯度法详细推导分析

    共轭梯度法是一种经典的优化算法 算法求解速度较快 虽然比梯度下降法复杂 但是比二阶方法简单 一 引入 1 优化模型建立 假定待优化的问题如下所示 min x f x 1 2 x T A x b T x min x f x frac 1 2
  • (PPO)近端策略优化学习记录

    PPO 近端策略优化学习记录 proximal policy optimization PPO 是策略梯度方法家族的一员 在PPO被提出来之前 它的哥哥 trust region policy optimization TRPO先被提出 在
  • 强化学习代码练习q-learning-迷宫

    相比上一个demo 这个练习的环境更加复杂 但是就强化学习智能体而言 其整体是一样的 但是既然环境更加复杂 就需要把智能体和环境单独拉出来写 不能再放一个Python文件中 环境类 环境类总结起来就是定义了初始化的参数 构建迷宫 重置函数
  • 【强化学习】

    强化学习DQN 提示 写完文章后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 强化学习DQN DQN算法的简介 一 环境的介绍 二 DQN算法 1 DQN算法的关键技术 2 DQN代码 2 1 导入库 2 2 定义类 2 3
  • 强化学习的模型

    文章目录 前言 一 强化学习是什么 二 基本模型 1 基本框架 2 学习过程 三 马尔科夫决策过程 Markov Decision Process MDP 1 马尔科夫性质 2 MDP的基本组成部分 3 MDP的基本流程 四 基于模型和免模
  • 强化学习笔记:连续控制 & 确定策略梯度DPG

    1 离散控制与连续控制 之前的无论是DQN Q learning A2C REINFORCEMENT SARSA什么的 都是针对离散动作空间 不能直接解决连续控制问题 考虑这样一个问题 我们需要控制一只机械手臂 完成某些任务 获取奖励 机械
  • 强化学习入门《Easy RL》

    什么是强化学习 强化学习关注的是智能体 Agent 在复杂的环境 Environment 中如何最大化获得的奖励 Reward 智能体和环境两部分组成了强化学习 在强化学习过程中 智能体与环境一直在交互 智能体在环境中获取某个状态后 它会利
  • DQN理论基础及其代码实现【Pytorch + CartPole-v0】

    DQN算法的理论基础 基于动态规划方法 基于蒙特卡罗方法和基于时间差分的方法都有一个基本的前提条件 状态空间和动作空间是离散的 而且状态空间和动作空间不能太大 这些强化学习方法的基本步骤是先评估值函数 再利用值函数改善当前的策略 这时的值函
  • DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态、奖励函数的设置)

    1 文章简介 本文原文可查阅文献 Deep reinforcement learning based AGVs real time scheduling with mixed rule for flexible shop floor in
  • 如何在PyCharm中对自己的pySC2 Agent代码进行Debug

    PySC2环境在Win10系统上的部署与安装 请参考 https blog csdn net qq 38962621 article details 112798659 spm 1001 2014 3001 5501 PySC2自定义Age
  • 【深度强化学习】(5) DDPG 模型解析,附Pytorch完整代码

    大家好 今天和各位分享一下深度确定性策略梯度算法 Deterministic Policy Gradient DDPG 并基于 OpenAI 的 gym 环境完成一个小游戏 完整代码在我的 GitHub 中获得 https github c
  • gym 101512 BAPC 2014 I Interesting Integers

    Problem codeforces com gym 101512 attachments vjudge net contest 186506 problem I Meaning 给出一个 正整数 n 要找尽量小的 a 和 b a lt b
  • 强化学习 优势函数(Advantage Function)

    目录 什么是优势函数 归一化 激活函数等学习问题 为什么要使用优势函数 常见的优势函数 什么是优势函数 优势函数表达在状态s下 某动作a相对于平均而言的优势 从数量关系来看 就是随机变量相对均值的偏差 使用优势函数是深度强化学习极其重要的一
  • Pytorch中常用的损失函数

    Pytorch中常用的损失函数 回归 nn L1Loss nn MSELoss 分类 nn CrossEntropyLoss 回归 nn L1Loss 平均绝对误差 也称L1范数损失 计算预测值与真实值之间的误差绝对值 L 1 L o s
  • 用于非图像矩阵的 Keras CNN

    我最近开始学习深度学习和强化学习 我试图弄清楚如何使用 Keras 为 10 行 3 列的 0 和 1 矩阵编写卷积神经网络 例如 输入矩阵看起来像这样 1 0 0 0 1 0 0 0 0 输出应该是另一个由 0 和 1 组成的矩阵 与前面

随机推荐