强化学习 优势函数(Advantage Function)

2023-11-19

目录

什么是优势函数

归一化、激活函数等学习问题 

为什么要使用优势函数

常见的优势函数


什么是优势函数

优势函数表达在状态s下,某动作a相对于平均而言的优势
从数量关系来看,就是随机变量相对均值的偏差
使用优势函数是深度强化学习极其重要的一种策略,尤其对于基于policy的学习。
定义如下:

归一化、激活函数等学习问题 

以下是常见的激活函数,梯度学习时,可以发现:
1,Sigmoid一类的激活函数,x在两边时,函数趋于饱和;
2,在0附近曲线几乎线性,学习速率最大;
3,Relu一类的激活函数,函数随x无限增大,学习会变得响应过敏感,难以控制。
总之,输入x不能过大,否则学习会变得效率低,以至于学不到最优。

from deeplearning.ai

对于Sigmoid,归一化是将输入标准化到均值为0,方差为1的标准正态分布上,提高学习效率。
注意不必纠结归一化、标准化具体表述细节上,我们这里用归一化表达一种数据scale思想:不改变数据本质,将数据scale到可控范围而提高学习效率的手段。

为什么要使用优势函数

优势函数其实就是将Q-Value“归一化”到Value baseline上,如上讨论的,这样有助于提高学习效率,同时使学习更加稳定;同时经验表明,优势函数也有助于减小方差,而方差过大导致过拟合的重要因素。

常见的优势函数

A3C、PPO的优势函数如下:

VPG、TRPO等的优势函数也可以选择以上估计方式;这都常见的近似方式是优势函数定义的有偏估计(but not too biased),但可以接受。

优势函数的一般估计(GAE)

GAE借鉴了TD(\lambda)思想,注意这里处理的是优势函数而不是Value Function,通过调整lambda,可以得到不同的近似估计。
大的思想一是Q(s,a)的近似,二是V(s)的表达,二者差表征优势函数A(s, a)。

from Berkeley GAE paper ICLR 2016

两个特例是:

from Berkeley GAE paper ICLR 2016

要特别注意,TD Residual是优势函数的一个不错的估计,但它们是两个概念,这很容易混淆,时序差分主要表达的是一种微分思想,优势函数描述的是一个相对量。 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

强化学习 优势函数(Advantage Function) 的相关文章

  • 在Ubuntu上编写一个开机自启动的Python脚本

    注意事项 如果脚本没有执行 首先应该考虑执行权限问题 查看脚本和相应的文件是否有执行权限 如果没有需要赋予执行权限 方法1 1 编写一个shell脚本文件 例如python auto sh 文件内容 2 编写start py文件 里面执行你
  • wps二维码根据一列自动生成_公文智能写作小程序上线了!一键生成公文!而且完全免费!...

    01 免费的公文写作AI 看过 秘书工作手记2 怎样写出好公文 的筒子们或许有察觉 石头对一切 投机取巧 的写材料方式 都抱有浓厚的兴趣 一切公文写作领域的工具创新 都会刺激我敏感的神经 比如 搜索引擎 资料库是我们写材料的常用工具 但这工
  • 金蝶kis专业版系统登录服务器,金蝶kis专业版怎么远程连接服务器

    金蝶kis专业版怎么远程连接服务器 内容精选 换一换 您可以借助报表服务制作各种各样的报表 无论是简单的还是复杂的报表 同时系统提供订阅功能方便用户对报表进行订阅 本文主要介绍RDS使用SSRS Reporting Services 报表服
  • 学习python第一天

    汉诺塔递归问题 python默认参数问题 参数一开始可以给一个默认值 如果想让一个函数能接受任意个参数 我们就可以定义一个可变参数 def fn args print args 可变参数的名字前面有个 号 我们可以传入0个 1个或多个参数给

随机推荐

  • gpuz怎么看显存颗粒

    gpuz可以帮助一些用户查看电脑的一切显卡参数 对于想要了解显卡的网友来说使用起来是非常方便的 不过有些网友是刚开始使用 还不知道gpuz怎么看显存颗粒 下面小编就教下大家gpuz查看显存颗粒的方法 首先 显存颗粒是显存的物理存储组成单元
  • 单独捕获dubbo异常

    一 定义一个rpc异常去继承自己自定义捕获的异常 public class RpcRuntimeException extends BadRequestException implements Serializable public Rpc
  • 用vite命令搭个react移动端项目,实现canvas碰撞效果(按需导入antd-mobile,pxtorem适配)

    前言 最近看见大家都在卷react源码 突然就心慌了 但是自己的操作水平还有待提高 现在看源码也需要循序渐进的 打算还是从写代码慢慢理解功能再去看源码 所以就尝试使用vite这个构建工具进行尝试构建一个react项目 因为是第一次使用 也是
  • matlab和C/C++混合编程--Mex

    最近的项目需要matlab和C的混合编程 经过一番努力终于完成了项目要解决的问题 现在就将Mex的一些经验总结一下 当然只是刚刚开始 以后随着学习的深入继续添加 首先讲讲写Mex的一些常规规定 然后我们会重点关注混合编程中最难解决数据的问题
  • 通过yarn提交作业到spark,运行一段时间后报错。

    加粗样式
  • QT控件之QComboBox(下拉框相关)

    QComboBox提供了下拉列表框的控件 下面简单介绍几个的方法和属性 1 addItems void addItem const QString text const QVariant userData QVariant void add
  • LUA中判断GameObject是否被Destory

    function IsNil uobj return uobj nil or uobj Equals nil end 你懂的 转载于 https www cnblogs com vsirWaiter p 7884249 html
  • vue学习01—安装vue-cli4

    1 安装node js 在官网下载并安装 2 安装vue cli3 如果安装过cli2 此处需要卸载 卸载 命令行输入 npm uninstall vue cli g 安装cli3 命令行输入 npm i g vue cli 在这一步遇到了
  • sharedPreferences

    sharedpreferences 共享参数 也是保存数据的一种方法 通常用于持久化数据 定期更新保存数据 类似ajax的定时刷新 示例代码 主要来源于黑马教程 如下 import java util Timer import java u
  • Sequence Models

    序列模型 如下图 常见的几个序列模型的应用 1 语音识别 2 音乐生产 3 文本情感分类 4 DNA序列分析 5 机器翻译 6 视频运动识别 7 命名实体识别 下图是该博客使用的符号说明 x代表输入序列 y代表输出序列 用右上角尖括号 x
  • pikachu Unsafe Filedownload 不安全的文件下载 (皮卡丘漏洞平台通关系列)

    这关也几乎是一步就能搞定 1 轻松过关 进入本关看到下图的页面 点击球员名字可以下载头像图片 点击之后直接下载了 没有页面跳转 地址栏的url没有变化 右键 查看网页源代码 通过球员名称快速定位到相关代码 类似 a href execdow
  • 虚拟机管理程序、虚拟化和云: 深入剖析 PowerVM 虚拟机管理程序

    预备知识 Power 是没有限制的虚拟化 一些企业打算依靠 PowerVM 虚拟化将多个工作负载整合到较少系统上 从而提高服务器利用率 降低成本 Power VM 为基于 Power Systems 平台的高级 RAS 功能和领先性能为 A
  • 理解line-height和vertical-align

    来源 https www cnblogs com libo web p 15457582 html 行高 line height line height 属性是指文本行基线之间的距离 用于设置多行元素的空间量 如多行文本的间距 对于块级元素
  • 谈谈对Python爬虫的理解

    爬虫也可以称为Python爬虫 不知从何时起 Python这门语言和爬虫就像一对恋人 二者如胶似漆 形影不离 你中有我 我中有你 一提起爬虫 就会想到Python 一说起Python 就会想到人工智能 和爬虫 所以 一般说爬虫的时候 大部分
  • notepad++ 快捷键

    Notepad 绝对是windows下进行程序编辑的神器之一 要更快速的使用以媲美VIM 必须灵活掌握它的快捷键 下面对notepad 默认的快捷键做个整理 其中有颜色的为常用招数 1 文件相关 快捷键 动作定义 Ctrl O 打开文件 C
  • (20200720已解决)_pickle.UnpicklingError: A load persistent id instruction was encountered,

    but no persistent load function was specified 问题描述 如题 提取pickle数据 解决方案 直接解释是因为生成pickle文件的过程中使用了persistent load 但是读取过程中没有提
  • 云原生之使用docker部署mongodb数据库

    云原生之使用docker部署mongodb数据库 一 检查系统版本 二 检查docker状态 三 检查docker版本 四 下载mongodb镜像 五 创建mongodb容器 1 创建数据目录 2 创建mongodb容器 3 查看mongo
  • Python中的sns.set_palette函数是一个非常有用的函数,它可以设置Seaborn库中的调色板。这个函数允许用户设置颜色列表,并将它们应用于所选的...

    Python中的sns set palette函数是一个非常有用的函数 它可以设置Seaborn库中的调色板 这个函数允许用户设置颜色列表 并将它们应用于所选的绘图 在这篇文章中 我将详细介绍sns set palette函数的使用方法 并
  • STM32外设系列—L298N

    文章目录 一 L298N简介 二 L298N电路图 三 L298N使用方法 四 L298N驱动电机实例 4 1 麦克纳姆轮简介 4 2 定时器PWM配置 4 3 智能车行驶控制 五 拓展应用 一 L298N简介 L298N是SGS公司生产的
  • 强化学习 优势函数(Advantage Function)

    目录 什么是优势函数 归一化 激活函数等学习问题 为什么要使用优势函数 常见的优势函数 什么是优势函数 优势函数表达在状态s下 某动作a相对于平均而言的优势 从数量关系来看 就是随机变量相对均值的偏差 使用优势函数是深度强化学习极其重要的一