强化学习中累积奖赏公式的推导

2023-10-31

转载于 强化学习中累积奖赏公式的推导_qingtian11112的博客-CSDN博客_强化学习累计奖励

1. 一些符号解释

  • P(C∣D)表示条件概率,在D发生的条件下,C发生的概率
  • E [C∣D] 表示在D发生的条件下,求C的期望,即有  
  • X 表示状态空间,即所有状态 x 的集合,有x ∈ X 
  • A 表示动作空间,即所有动作 a 的集合,有a ∈ A
  • R表示获得的奖赏
  • π 表示策略函数,有, 表示在状态 x 下执行动作 a 的概率

 2.一些假设

1)马尔科夫假设:下一时刻的状态只与当前时刻的状态有关,而与其他时刻的状态无关。

2)下一时刻的状态只与这一时刻的状态以及这一时刻的行为有关:

     P_{x->x^{'}}^{a}表示执行动作 a 后从状态 x 转移到状态 x ′ 

3)下一时刻的奖赏函数值只与这一时刻的状态及这一时刻的行为有关:


      eg:      

      在状态 x 下执行动作 a 后可能会转换到状态 x ′ 或 x'' ,即下一时刻的状态服从概率分布:

      这两种情况会产生不同的奖赏:

      R_{x}^{a} 表示在状态 x 下执行动作 a 后所产生奖赏的期望值:

      由此得                   (a)


3.两个定义

1. 状态值函数:衡量某个状态最终能获得多少累积奖赏的函数。下式表示从状态 x 出发,使用策略 π 所带来的累积奖赏:

 2. 状态-动作值函数:衡量某个状态下采取某个行为后,最终能获得多少累积奖赏的函数。下式表示从以状态 x 出发,执行动作 a 后再使用策略 π 带来的累积奖赏:

4.展开和推导

1. 展开

   是 x 确定的情况下的累积奖励,并没有指定执行哪个动作,而是 x 和 a 确定时的累积奖励,应用全概率展开,有:

    代入策略函数公式,得:

2.  展开

      由 R_{x}^{a }  的定义和 (a) 式得:

      应用全概率展开得:

    (没有完全理解,是某状态下某行为得到的奖励 = 某状态下所有行为的奖励 * 某行为的概率吗?)

       综上,

3. 结合

     代入 得

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

强化学习中累积奖赏公式的推导 的相关文章

  • 自信息量和一阶熵

    信息论中 自信息量和一阶熵是用来度量信息的重要概念 它们提供了一种方式来理解和量化信息的不确定性和平均量 对于解决信息传输 编码和存储等问题非常有用 首先 让我们来了解一下自信息量 自信息量是用来度量一个事件的信息量或不确定性的大小 假设有
  • 推荐系统:机器学习中基于内容的过滤

    概述 顾名思义 基于内容的筛选是一种机器学习实现 它使用系统中收集的内容或功能来提供类似的建议 根据用户观察结果从数据集中获取最相关的信息 最常见的例子是 Netflix Myntra Hulu Hotstar Instagram Expl
  • 机器学习 高维数据可视化:t-SNE 降维算法

    作者简介 人工智能专业本科在读 喜欢计算机与编程 写博客记录自己的学习历程 个人主页 小嗷犬的个人主页 个人网站 小嗷犬的技术小站 个人信条 为天地立心 为生民立命 为往圣继绝学 为万世开太平 本文目录 t SNE 简介 sklearn 中
  • 人工智能知识表示与推理:构建智能系统的认知引擎

    导言 人工智能知识表示与推理是构建智能系统认知引擎的关键组成部分 本文将深入研究知识表示的方法和推理技术 以及它们在解决现实问题和提升智能系统智能水平中的作用 1 知识表示方法 符号表示法 使用符号和逻辑关系来表示知识 例如谓词逻辑 连接主
  • 【数学证明 笔记01】证明常见的逻辑方法有哪些?

    文章目录 一 声明 二 直接证明 三 反证法 四 数学归纳法 五 对证法 六 构造法 七 分情况讨论 一 声明 本帖持续更新中 如有纰漏 望指正 二 直接证明 原理 通过一系列逻辑推理和推断来证明目标命
  • 软件测试/测试开发/人工智能丨机器学习中特征的含义,什么是离散特征,什么是连续特征。

    在机器学习中 特征 Feature 是输入数据中的属性或变量 用于描述样本或数据点 特征对于机器学习模型而言是输入的一部分 模型通过学习样本的特征与其对应的标签 或输出 之间的关系来做出预测或分类 特征可以分为不同类型 其中两个主要的类型是
  • 基于生成式对抗网络的视频生成技术

    随着人工智能的快速发展 生成式对抗网络 GAN 作为一种强大的生成模型 已经在多个领域展现出了惊人的能力 其中 基于GAN的视频生成技术更是引起了广泛的关注 本文将介绍基于生成式对抗网络的视频生成技术的原理和应用 探索其对电影 游戏等领域带
  • 机器学习---决策树

    介绍 决策树和随机森林都是非线性有监督的分类模型 决策树是一种树形结构 树内部每个节点表示一个属性上的测试 每个分支代表一个测试输出 每个叶子节点代表一个分类类别 通过训练数据构建决策树 可以对未知数据进行分类 随机森林是由多个决策树组成
  • 基于生成式对抗网络的视频生成技术

    随着人工智能的快速发展 生成式对抗网络 GAN 作为一种强大的生成模型 已经在多个领域展现出了惊人的能力 其中 基于GAN的视频生成技术更是引起了广泛的关注 本文将介绍基于生成式对抗网络的视频生成技术的原理和应用 探索其对电影 游戏等领域带
  • 基于ResNet模型微调的自定义图像数据分类

    Import necessary packages import torch import torch nn as nn from torchvision import datasets models transforms from tor
  • 澳鹏干货解答!“关于机器学习的十大常见问题”

    探索机器学习的常见问题 了解机器学习和人工智能的基本概念 原理 发展趋势 用途 方法和所需的数据要求从而发掘潜在的商机 什么是机器学习 机器学习即教授机器如何学习的过程 为机器提供指导 帮助它们自己开发逻辑 访问您希望它们访问的数据 机器学
  • MIT_线性代数笔记:第 23 讲 微分方程和 exp(At)

    目录 微分方程 Differential equations 矩阵指数函数 Matrix exponential e A t e At
  • 蒙牛×每日互动合作获评中国信通院2023“数据+”行业应用优秀案例

    当前在数字营销领域 品牌广告主越来越追求品效协同 针对品牌主更注重营销转化的切实需求 数据智能上市企业每日互动 股票代码 300766 发挥自身数据和技术能力优势 为垂直行业的品牌客户提供专业的数字化营销解决方案 颇受行业认可 就在不久前举
  • MIT_线性代数笔记:复习二

    目录 第二单元主要内容 例题 第二单元主要内容 正交矩阵 Q 用矩阵形式描述正交性质 投影矩阵 P 最小二乘法 在方程无解时求 最优解 Gram Schmidt 正交化 从任意一组基得到标准正交基 策略是从向量 中减去投影到其它向量方向的分
  • 基于机器学习的贷中风险预测模型-江苏银行“随e融”杯-二等奖

    文章目录 源码下载地址 项目介绍 界面预览 项目备注 毕设定制 咨询 源码下载地址 源码下载地址 点击这里下载源码 项目介绍 基于机器学习的贷中风险预测模型 江苏银行
  • 如何用GPT制作PPT和写代码?

    详情点击链接 如何用GPT制作PPT和写模型代码 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemin
  • 毕业设计-基于深度学习的细菌微生物目标检测系统系统 YOLO python 目标检测 人工智能 卷积神经网络 机器学习

    目录 前言 设计思路 一 课题背景与意义 二 算法理论原理 2 1 CBAM模块 2 2 损失函数 三 检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析 实现效果图样例 最后 前言 大四是整个大学期间最忙碌的时光 一
  • 机器学习算法实战案例:时间序列数据最全的预处理方法总结

    文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值 中位数 众数填充
  • 机器学习算法实战案例:Informer实现多变量负荷预测

    文章目录 机器学习算法实战案例系列 答疑 技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析 机器学习算法实战案例系
  • 自动驾驶离不开的仿真!Carla-Autoware联合仿真全栈教程

    随着自动驾驶技术的不断发展 研发技术人员开始面对一系列复杂挑战 特别是在确保系统安全性 处理复杂交通场景以及优化算法性能等方面 这些挑战中 尤其突出的是所谓的 长尾问题 即那些在实际道路测试中难以遇到的罕见或异常驾驶情况 这些问题暴露了实车

随机推荐

  • 服务器向客户端传文件失败怎么办,服务器可以向客户端传文件

    服务器可以向客户端传文件 内容精选 换一换 用于IDE daemon host 作为服务端 和IDE daemon client 作为客户端 之间的双向认证 在Atlas 300场景下 IDE daemon host部署在Host侧 若不安
  • 动态规则表达式解析

    import cn hutool core util StrUtil import com alibaba fastjson JSONArray import com alibaba fastjson JSONObject import j
  • 计算机视觉技术在图像特征提取中的应用研究,计算机视觉防撞系统中图像特征提取算法研究...

    摘要 智能车辆系统 IVS Intelligent Vehicle System 是近年来新兴的一门交叉学科 其研究涉及到计算机测量与控制 计算机视觉 传感器数据融合 车辆工程等诸多领域 可以说 智能车辆的研究是计算机视觉与计算机控制在车辆
  • [Vue面试] keep-alive 和 $set 的使用

    keep alive 的使用汇总于 半度 温热 和 圈圈同学 keep alive 概念 keep alive 是 Vue 的内置组件 当它包裹动态组件时 会缓存不活动的组件实例 而不是销毁它们 和 transition 相似 keep a
  • vite性能优化提升开发体验之hmr和预编译

    一 vite中的预编译 1 预编译概念介绍 Vite 一个由Vue js开发者尤雨溪开发的新型前端构建工具 主要利用了现代浏览器支持的ESM ES模块 来进行快速开发 Vite在法语中意为 快 其中最大的亮点就是其开发服务器启动的速度 能够
  • PostgreSQL基本操作总结

    安装按PostgreSQL数据库后 会默认创建用户postgres和数据库postgres 这个用户是超级用户 权限最高 可以创建其他用户和权限 在实际开发过程中 会新创建用户和业务数据库 本文主要介绍用户权限和数据库的基本操作 1 用户权
  • SQL 在Join 和 Exists查询时对Null 值的处理

    文章目录 Join 中 null 值的处理 In 和 Exists 中 null 值的处理 Join 和 Exists 测试 准备测试数据 Join 测试 In 和 Exists 测试 最近发现SQL在处理Join 和 父子查询的时候 会对
  • 在Springboot使用form上传图片作为头像,之后通过ajax渲染img的src属性显示图片遇到的路径问题处理小技巧

    业务流程大概是这样的 在Springboot框架下 使用form提单提交用户注册信息 包括图片 图片被保存到服务器上 把图片保存的路径作为属性存入数据库 之后 显示用户信息的时候 通过Ajax获取用户信息 将图片的路径赋值给 img 的sr
  • ES Model 简述

    ES Module 浏览器中使用 html 中使用 在 html 中 script 标签添加 type module 表示可以以 ES Module 的标准执行其中的 JS 代码 ESM 自动采用了严格模式 忽略 use strict 每个
  • 分布式训练数据并行极致优化:ZeRO

    分布式训练数据并行极致优化 ZeRO 导言 随着 ChatGPT 的爆火 大模型成为了近些年人工智能的研究热点 大模型能力惊艳 但是训练起来成本也不小 大模型 顾名思义 最大的特点就是 大 这里的 大 通常指的就是模型的参数量大 因此 在分
  • mysql truncate 多个_mysql生产批量处理数据 比如批量truncate ..

    背景 工作中涉及到经常要为QA同学批量清空表记录 这里记录一下我的操作过程和遇到的问题 最后做一下小结 过程 拼SQL 这个很简单 用 CONCAT 从 information schema 里面获取 TABLE NAME 拼成要执行的一句
  • Java:Spring的IOC原理(大白话解释)

    先行参考以下半成品文章和参考链接 待学完课程后续整理此文章 IOC和DI关系 IOC Inversion of Control 控制反转 DI Dependency Injection 依赖注入 关系 IOC是一种面向编程设计思想 DI是I
  • 远程仓库上创建一个新的分支 `b` 并将远程分支 `a` 的内容克隆到 `b` 分支上

    一 需求 要在远程仓库上创建一个新的分支 b 并将远程分支 a 的内容克隆到 b 分支上 你可以按照以下步骤进行操作 二 解决方案 1 首先 使用 git clone 命令克隆远程仓库到本地 例如 要克隆一个名为 repo 的仓库 可以运行
  • 一个简单的Java抽奖程序

    文章目录 需求背景 设计思路 代码实现 定义奖品及中奖概率 执行抽奖 中奖率测试 测试结果数据 本文逻辑思想比较简单 旨在了解后端如何设计抽奖以及控制抽奖概率 需求背景 现在奖品池有如下奖品 序号 名称 中奖率 0 代金券10元 20 1
  • uniapp使用svg图片的优化方案

    问题 uniapp使用svg图片 浏览器测试可以显示出来 真机测试无法显示 为了解决手机无法显示svg图标的问题 本人特意开发了一款插件 如有不足请各位指出 勿喷 svg icon DCloud 插件市场 替换方案 使用字体图标 1 打开下
  • Sublime Text 常用插件安装介绍,从入门到精通(图文系列二)

    不懂Sublime Text基础下载安装的请先看这篇 Sublime Text下载 安装和Package Control的安装方法 在安装Package Control之后我们就可以开启Sublitme Text插件的之路啦 下边在这简单的
  • 动手学CV-目标检测入门教程2:VOC数据集

    3 2 目标检测数据集VOC 本文来自开源组织 DataWhale CV小组创作的目标检测入门教程 对应开源项目 动手学CV Pytorch 的第3章的内容 教程中涉及的代码也可以在项目中找到 后续会持续更新更多的优质内容 欢迎 如果使用我
  • 使用YOLOV5训练自己的数据集时所遇到问题

    训练过程中 1 attributeerror module yaml has no attribute load 方法1 如果另一个名为 yaml py 的文件在 PyYaml 库之前出现在你的 sys path 中 就会接收并导入该 ya
  • ubuntu安装docker

    sudo apt get remove docker docker engine docker io containerd runc sudo apt get update sudo apt get install apt transpor
  • 强化学习中累积奖赏公式的推导

    转载于 强化学习中累积奖赏公式的推导 qingtian11112的博客 CSDN博客 强化学习累计奖励 1 一些符号解释 P C D 表示条件概率 在D发生的条件下 C发生的概率 E C D 表示在D发生的条件下 求C的期望 即有 X 表示