强化学习PPO算法的思路流程

2023-05-16

首先可以肯定的是PPO算法是基于actor-critic框架的，但是它又含有强烈的Policy Gradient的风格。本文仅介绍PPO算法的应用流程。

通常PPO算法的实现中有三个network，一个critic network，两个actor network（old_actor and new_actor）。在一个episode中，agent首先利用现有的策略Pi (new_actor network)与环境进行互动获得一个batch的数据，在这个过程中actor和critic网络是不会被优化的。而在获得一个完整的batch数据后，actor network和critic network开始对这一batch数据进行学习，这一点类似于Policy Gradient。但又不同于Policy Gradient的是，actor network和critic network会对sample到的这一个batch的数据进行T次的学习。

其中，在采集完这个batch数据后，使用critic network获得估计的值函数，然后根据critic network估计的值函数和batch数据中存储的每个时刻的reward按照一定的折扣率分别计算采集到的这个batch数据中每个时刻值函数，如下公式所示

在对采集到的这个batch数据学习时，old_actor network就用到了。首先将获得这个batch数据的new_actor network中的参数复制给old_actor network，然后开始进行new_actor network和critic network的学习。首先将这个batch数据存储的T个state输入给critic network，critic network分别输出T个时刻的估计值函数，然后再根据公式(10)所示计算出T个target value function，最后就可以计算出T个优势函数（TD error）（不同于DDPG中用target network来以计算TD error）。

之后就利用batch数据的TD error对new_actor network的参数进行N次优化，其中的loss如下式所示

最后，利用batch数据的TD error对critic network进行B次优化。对critic network的优化方法和Advantage actor-critic算法中所用方法基本一样。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

强化学习PPO算法的思路流程的相关文章

大数据疫情可视化平台3_虚拟机搭建Hive3.1.2环境(JDK11需要降为JDK8)

说明记录大数据疫情可视化平台项目的基础环境搭建 xff1a 虚拟机搭建Hadoop3 2 1 43 Hive3 1 2环境环境说明虚拟机配置CentOS 7 6一台已搭建的集群Hadoop3 2 1环境JDK1 8的安装tar包 xf
Nebula Graph学习篇2_版本v2.6.1之前的bug导致OOM

1 环境说明测试服务器 xff1a 16CPU 64G Nebula版本 xff1a 2 6 1 数据量 xff1a tag约为300w xff0c edge约为10w 2 报错情况基本情况就是执行nGQL查询命令报错 xff0c 查看
Nebula Graph学习篇3_多线程完成6000w+关系数据迁移

背景 nebula支持excel文件数据迁入 xff0c 因此xxx系统可以上传从MySQL或其他工具导出的excel文件然后执行映射节点关系导入为了解耦和提升用户体验 xff0c 过程使用kafka异步完成对于小数据量的情景是完全没
Java并发编程学习篇8_基于开源的配置中心的轻量动态线程池dynamic-tp实践与源码原理分析

1 前言在业务中多线程使用场景有很多 xff0c 但是业务场景又不太相同 xff0c 业务场景也可能会发生变化 xff0c 因此线程池参数的合适的设置以及动态的变化调整就成为痛点针对此系列痛点 xff0c 参考Java线程池实现原理及其
SpringCloud Alibaba Gateway实践与原理分析

目录一实践项目环境搭建配置测试路由负载均衡测试配置GlobalFilter拦截器模拟登录验证配置CROS跨域测试配置限流二原理分析请求路由流程核心类分析 DispatcherHandlerRouteLocatorRouteDe
常用日志解决方案实践与学习

前言 xff1a 一个功能完善的日志系统是企业在日常产品项目开发中是必须的 xff0c 接触过bug fix的同学应该深有体会一份记录详细完善的日志能提升的效率之前参与项目架构技术会的时候 xff0c 谈论到了日志技术的选型及实现 xf
常用日志解决方案实践与学习-基于AOP利用注解实现日志记录原理分析

往期博客常用日志解决方案实践与学习提到开源的利用注解优雅的记录日志两个开源仓库 xff0c 使用形式都是引入依赖 xff0c 加上注解即可输出操作日志本篇文件大概分析下原理实现美团开源仓库https github com mouzt
《深入理解RPC框架原理与实现华钟明》使用Netty、Zookeeper等实现一个简单的RPC框架、自定义注解、SPI机制实践与原理分析

前言读书笔记见往期博客 xff1a 深入理解RPC框架原理与实现华钟明读书笔记接下来就是实践练习环节 xff0c 结合书中最简易的实现的RPC的源码和一些开源的源码 xff0c 来自己一步一步手敲出一个自己升级版的RPC 通过实践
《Elasticsearch源码解读与优化实战》张超-读书笔记

写在前面好久没更新博客了 xff0c 应届狗没办法啊为了秋招搞了小半年 xff0c 从去年5月到现在搞了两段实习 xff08 京东游戏公司 xff09 xff0c 最终年前拿到一家还行的offer xff0c 现在已经入职实习了 xf
MathType MTEF v.5学习文档

前言 MathType是一款公式工具 xff0c 可以作为插件安装到office等软件 xff0c 其将公式存储两部分wmf文件和二进制objectOle对象 xff0c 其中公式存储是以MTEF语言内嵌在这两部分中 xff0c 这是一款M
「最全」电子元器件图片、名称、符号图形对照（精编请收藏）

点击上方大鱼机器人 xff0c 选择置顶星标公众号福利干货 xff0c 第一时间送达 xff01 一电阻系列电阻器 xff08 Resistor xff09 是一个限流元件 xff0c 用字母R来表示 xff0c 单位为欧姆将
Karto_slam跑激光雷达(北阳ust-10lx下一篇介绍使用)

0 当前配置 Ubuntu 16 04ROS KineticOpencv 3 4 1Ceres solvergcc version 5 4 0 20160609 g 43 43 Eigen3 G2O 1 前言本人当下在学习slam kar
串级PID控制四轴飞行状态-分析

参考网页 xff1a http blog csdn net nemol1990 article details 45131603 一概念单极PID xff1a 当你知道系统当前状态和期望状态后 xff0c 如何将系统从当前状态调整到期望
Ubuntu18.04安装Nvidia显卡驱动，CUDA+CUDNN，完整Qt，编译安装OpenCV4.1.1 with CUDA and Qt

目录 N卡无法开机问题一安装Nvidia显卡驱动1 禁用安全引导2 禁用默认驱动程序3 添加Nvidia驱动源4 安装驱动二安装CUDA和CUDNN1 下载2 安装3 配置环境变量4 测试CUDA5 下载 xff0c 安装CUDNN
纯C语言实现仿C++STL泛型链表

声明本代码完全开源 xff0c 可以用于任意用途 xff0c 但代码并未做完善的测试 xff0c 性能也不能保障 xff0c 主要用于初学者学习源码链接 xff1a GitHub 一原理普通的单向链表的原理就是一个节点存储着数据和指
Ubuntu上使用CLion开发STM32，并使用JLink下载、调试

目录一环境准备二下载STM32CubeMX固件库三使用STM32CubeMX创建工程四 CLion配置五 CMake简单操作和添加DSP库CMake简单操作添加DSP库五调试时查看外设寄存器六使用JLinkGDBServer
C++进阶——STL源码之迭代器（iterators）

STL迭代器在 STL 编程中 xff0c 容器和算法是独立设计的 xff0c 即数据结构和算法是独立设计的 xff0c 连接容器和算法的桥梁就是迭代器了 xff1a 迭代器是一种行为类似指针的对象 xff0c 而指针的各种行为中最常见也
C++基础——STL常见问题总结

1 STL由哪些组件组成容器 xff08 Containers xff09 xff1a 各种数据结构 xff0c 如 xff1a vector list deque set map 用来存放数据从实现的角度来看 xff0c STL容器是
private static final long serialVersionUID = 1L 干什么的？

private static final long serialVersionUID 61 1L xff1b 是定义以一个序列号 java源码里有大量的类都有这么一个序列号目的就是把java对象序列化而后进行保存 java的序列化机制式通
协议：PELCO-D

PELCO D的功能是用于矩阵和其它设备之间的通信协议基本信息数据格式 xff1a 1位起始位 8位数据 1位停止位 xff0c 无校验位波特率 xff1a 2400B S 命令格式字节1 字节2 字节3 字节4 字节5 字节6 字

随机推荐

9年FPGA工作经验，转行了，苦海无涯……

整理 xff1a 付斌 xff0c 内容来自网络 01 9年峥嵘岁月我很少说话 xff0c 因为怕被人鄙视工作了9年的fpga xff0c 总要总结其实说我的fpga经验 xff0c 也是一坨屎三年的 xff0c 用altera的c
GPS-RTK

一点一点的补充吧背景 1 xff0e 各种控制测量传统的大地测量工程控制测量采用三角网导线网方法来施测 xff0c 不仅费工费时 xff0c 要求点间RTK 在工程测量的应用通视 xff0c 而且精度分布不均匀 xff0c 且在外业不
浅谈栈帧

一什么是栈帧 xff1f 什么是栈帧 xff0c 首先引用百度百科的经典解释 xff1a 栈帧也叫过程活动记录 xff0c 是编译器用来实现过程函数调用的一种数据结构实际上 xff0c 可以简单理解为 xff1a 栈帧就是存储在用户栈
madVR+potplay 基本设置

ctrl 43 j 调出 madvr 的OSD菜单如下图 xff1a 如何设置 madVR 10bit 输出 xff1a 1 确保视频源是10bit 源 2 显示器设置如下 xff1a 3 渲染设置如下 xff1a 设置完成 xff0c
4.jetson更换python版本

问题与背景 jetson自带的python版本是3 6 9 xff0c 太老旧了 xff0c 希望更换python版本尝试替换成python3 7的版本但是在未替换之前 xff0c 已经装了pip3了 xff0c 是否pip3会与pyt
char数组和指针的区别

一个简单的字符分割函数引发的思考 char SegStr1 const char pSrc int n int nLen 61 strlen pSrc char ptrSrc 256 61 0 char pSeg 61 ptrSrc for
舒尔补理论Schur Compliment

在做slam的时候经常遇到的一个概念就是schur complement xff0c 了解这个概念 xff0c 对于理解slam的优化过程也会有很大的帮助 xff1b 首先给出的是舒尔补的定义 xff1a 舒尔补的由来其实就是将一个矩阵变成
用CubeSLAM跑自己的数据集

针对CubeSLAM本博客内容如下 xff0c 主要是阅读论文和代码的一些结果总结 xff0c 还有一部分总结未完成 xff0c 同样使用或者对语义slam感兴趣有经验的欢迎交流 xff0c 该博客后面也会不段更新cubeslam在自己的数
mipi接口的摄像头驱动并发布话题

情况需要跑ORBSLAM 之前一直使用USB接口的相机打开摄像头一般使用的是ROS下的usb cam node进行驱动采集图像并发布成topic的形式或者使用opencv的videoCapture进行图像的捕捉因为某些原因需要将u
正确使用StereoRectify

双目矫正的使用 cv fisheye StereoRectify 函数主要用于对双目图像做出矫正计算出用于立体矫正的参数具体的使用方法如下 void cv fisheye stereoRectify InputArray K1 Inp
Eigen问题解决:eigen_assert_exception’ is not a member of ‘Eigen’

很意外地遇到一个Eigen相关的错误 xff1a usr local include eigen3 Eigen src Core products Parallelizer h 162 40 error eigen assert excep
2020年大学生电子设计竞赛，又来了！

不知不觉 xff0c 又临近5月份 xff0c 疫情下的各个比赛活动都受到了影响 xff0c 今年是偶数年 xff0c 暑期应该是各个省份的电子设计竞赛比赛之时还有三四个月 xff0c 有想参加的比赛的同学应该可以提前准备了关于比赛的帖
Kalibr源码学习(一): 重投影误差

Kalibr源码学习一重投影误差给自己挖一个大坑从标定结果来学习Kalibr的标定源码这里基本以KB模型为例也就是标定时 kalibr的模型设定为 model pinhole equi 这里以重投影误差开始希望能坚持重投影误
OpenCV入门: Mat数据类型及其转换,访问

1 总结先贴上我总结的Opencv的数据类型主要是针对不同Mat类型进行新建修改和访问时使用更详细的数据访问见下文 2 CV 8UC3解说新建一个CV 8UC3型的cv Mat 其中U代表了unsigned char型的数据其表
Opencv单目标定flag的设定

1 flag中的标签顺序 xff1a 在代码中的对应如下 xff1a enum CALIB USE INTRINSIC GUESS 61 1 lt lt 0 CALIB RECOMPUTE EXTRINSIC 61 1 lt lt 1 CA
队列的基础知识及实现方法

队列在网上又看到关于队列的知识点 xff0c 有很多 xff0c 但都比较琐碎 xff0c 有的还有些错误 xff0c 为方便自己理解 xff0c 特整理出一篇 xff0c 顺便也加强记忆 xff1b 当然 xff0c 也附上我参考的博客
sudo：/usr/bin/sudo 必须属于用户 ID 0(的用户)并且设置 setuid 位

应该是之前的误操作导致sudo不能正常的使用每次输入sudp 都会提醒 sudo xff1a usr bin sudo 必须属于用户 ID 0 的用户并且设置 setuid 位这是因为我之前修改了usr的权限将usr整个文件夹的权
VS2015 调试代码时写入位置时发生访问冲突

前一段时间写一个工程 xff0c 调用自己写的一个库 xff0c 编译成功 xff0c 执行时发生了访问冲突 xff1b 当时觉得很好奇 xff0c 这个库不是第一次调用 xff0c 之前调用过很多次都没有问题 xff0c 偏偏这次出现了访
GIT代码管理： git remote add

这里主要以如何将一份已经写好的代码提交到两个git远端为例 xff0c 更好地理解git remote add这句 xff1b 首先要明白一句代码的意思 xff0c 以github最经常的提示为例 xff1a 在这张图面里git ini
强化学习PPO算法的思路流程

首先可以肯定的是PPO算法是基于actor critic框架的 xff0c 但是它又含有强烈的Policy Gradient的风格本文仅介绍PPO算法的应用流程通常PPO算法的实现中有三个network xff0c 一个critic n

强化学习PPO算法的思路流程

强化学习PPO算法的思路流程 的相关文章

随机推荐

热门标签

强化学习PPO算法的思路流程的相关文章