强化学习中累积奖赏公式的推导

2023-10-31

转载于强化学习中累积奖赏公式的推导_qingtian11112的博客-CSDN博客_强化学习累计奖励

1. 一些符号解释

P(C∣D)表示条件概率，在D发生的条件下，C发生的概率
E [C∣D] 表示在D发生的条件下，求C的期望，即有
X 表示状态空间，即所有状态 x 的集合，有x ∈ X
A 表示动作空间，即所有动作 a 的集合，有a ∈ A
R表示获得的奖赏
π 表示策略函数，有, 表示在状态 x 下执行动作 a 的概率

2.一些假设

1）马尔科夫假设：下一时刻的状态只与当前时刻的状态有关，而与其他时刻的状态无关。

2）下一时刻的状态只与这一时刻的状态以及这一时刻的行为有关：

$P_{x->x^{'}}^{a}$ 表示执行动作 a 后从状态 x 转移到状态 x ′

3）下一时刻的奖赏函数值只与这一时刻的状态及这一时刻的行为有关：

eg:

在状态 x 下执行动作 a 后可能会转换到状态 x ′ 或 x'' ，即下一时刻的状态服从概率分布：

这两种情况会产生不同的奖赏：,

$R_{x}^{a}$ 表示在状态 x 下执行动作 a 后所产生奖赏的期望值:

由此得 (a)

3.两个定义

1. 状态值函数：衡量某个状态最终能获得多少累积奖赏的函数。下式表示从状态 x 出发，使用策略 π 所带来的累积奖赏：

2. 状态-动作值函数：衡量某个状态下采取某个行为后，最终能获得多少累积奖赏的函数。下式表示从以状态 x 出发，执行动作 a 后再使用策略 π 带来的累积奖赏：

4.展开和推导

1. 展开

是 x 确定的情况下的累积奖励，并没有指定执行哪个动作，而是 x 和 a 确定时的累积奖励，应用全概率展开，有：

代入策略函数公式，得：

2. 展开

由 $R_{x}^{a }$ 的定义和 (a) 式得：

应用全概率展开得：

（没有完全理解，是某状态下某行为得到的奖励 = 某状态下所有行为的奖励 * 某行为的概率吗？）

综上，

3. 结合

代入得

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

强化学习中累积奖赏公式的推导的相关文章

自信息量和一阶熵

信息论中自信息量和一阶熵是用来度量信息的重要概念它们提供了一种方式来理解和量化信息的不确定性和平均量对于解决信息传输编码和存储等问题非常有用首先让我们来了解一下自信息量自信息量是用来度量一个事件的信息量或不确定性的大小假设有
推荐系统：机器学习中基于内容的过滤

概述顾名思义基于内容的筛选是一种机器学习实现它使用系统中收集的内容或功能来提供类似的建议根据用户观察结果从数据集中获取最相关的信息最常见的例子是 Netflix Myntra Hulu Hotstar Instagram Expl
机器学习高维数据可视化：t-SNE 降维算法

作者简介人工智能专业本科在读喜欢计算机与编程写博客记录自己的学习历程个人主页小嗷犬的个人主页个人网站小嗷犬的技术小站个人信条为天地立心为生民立命为往圣继绝学为万世开太平本文目录 t SNE 简介 sklearn 中
人工智能知识表示与推理：构建智能系统的认知引擎

导言人工智能知识表示与推理是构建智能系统认知引擎的关键组成部分本文将深入研究知识表示的方法和推理技术以及它们在解决现实问题和提升智能系统智能水平中的作用 1 知识表示方法符号表示法使用符号和逻辑关系来表示知识例如谓词逻辑连接主
【数学证明笔记01】证明常见的逻辑方法有哪些？

文章目录一声明二直接证明三反证法四数学归纳法五对证法六构造法七分情况讨论一声明本帖持续更新中如有纰漏望指正二直接证明原理通过一系列逻辑推理和推断来证明目标命
软件测试/测试开发/人工智能丨机器学习中特征的含义，什么是离散特征，什么是连续特征。

在机器学习中特征 Feature 是输入数据中的属性或变量用于描述样本或数据点特征对于机器学习模型而言是输入的一部分模型通过学习样本的特征与其对应的标签或输出之间的关系来做出预测或分类特征可以分为不同类型其中两个主要的类型是
基于生成式对抗网络的视频生成技术

随着人工智能的快速发展生成式对抗网络 GAN 作为一种强大的生成模型已经在多个领域展现出了惊人的能力其中基于GAN的视频生成技术更是引起了广泛的关注本文将介绍基于生成式对抗网络的视频生成技术的原理和应用探索其对电影游戏等领域带
机器学习---决策树

介绍决策树和随机森林都是非线性有监督的分类模型决策树是一种树形结构树内部每个节点表示一个属性上的测试每个分支代表一个测试输出每个叶子节点代表一个分类类别通过训练数据构建决策树可以对未知数据进行分类随机森林是由多个决策树组成
基于生成式对抗网络的视频生成技术

随着人工智能的快速发展生成式对抗网络 GAN 作为一种强大的生成模型已经在多个领域展现出了惊人的能力其中基于GAN的视频生成技术更是引起了广泛的关注本文将介绍基于生成式对抗网络的视频生成技术的原理和应用探索其对电影游戏等领域带
基于ResNet模型微调的自定义图像数据分类

Import necessary packages import torch import torch nn as nn from torchvision import datasets models transforms from tor
澳鹏干货解答！“关于机器学习的十大常见问题”

探索机器学习的常见问题了解机器学习和人工智能的基本概念原理发展趋势用途方法和所需的数据要求从而发掘潜在的商机什么是机器学习机器学习即教授机器如何学习的过程为机器提供指导帮助它们自己开发逻辑访问您希望它们访问的数据机器学
MIT_线性代数笔记：第 23 讲微分方程和 exp(At)

目录微分方程 Differential equations 矩阵指数函数 Matrix exponential e A t e At
蒙牛×每日互动合作获评中国信通院2023“数据+”行业应用优秀案例

当前在数字营销领域品牌广告主越来越追求品效协同针对品牌主更注重营销转化的切实需求数据智能上市企业每日互动股票代码 300766 发挥自身数据和技术能力优势为垂直行业的品牌客户提供专业的数字化营销解决方案颇受行业认可就在不久前举
MIT_线性代数笔记：复习二

目录第二单元主要内容例题第二单元主要内容正交矩阵 Q 用矩阵形式描述正交性质投影矩阵 P 最小二乘法在方程无解时求最优解 Gram Schmidt 正交化从任意一组基得到标准正交基策略是从向量中减去投影到其它向量方向的分
基于机器学习的贷中风险预测模型-江苏银行“随e融”杯-二等奖

文章目录源码下载地址项目介绍界面预览项目备注毕设定制咨询源码下载地址源码下载地址点击这里下载源码项目介绍基于机器学习的贷中风险预测模型江苏银行
如何用GPT制作PPT和写代码？

详情点击链接如何用GPT制作PPT和写模型代码一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemin
毕业设计-基于深度学习的细菌微生物目标检测系统系统 YOLO python 目标检测人工智能卷积神经网络机器学习

目录前言设计思路一课题背景与意义二算法理论原理 2 1 CBAM模块 2 2 损失函数三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析实现效果图样例最后前言大四是整个大学期间最忙碌的时光一
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车

随机推荐

服务器向客户端传文件失败怎么办,服务器可以向客户端传文件

服务器可以向客户端传文件内容精选换一换用于IDE daemon host 作为服务端和IDE daemon client 作为客户端之间的双向认证在Atlas 300场景下 IDE daemon host部署在Host侧若不安
动态规则表达式解析

import cn hutool core util StrUtil import com alibaba fastjson JSONArray import com alibaba fastjson JSONObject import j
计算机视觉技术在图像特征提取中的应用研究,计算机视觉防撞系统中图像特征提取算法研究...

摘要智能车辆系统 IVS Intelligent Vehicle System 是近年来新兴的一门交叉学科其研究涉及到计算机测量与控制计算机视觉传感器数据融合车辆工程等诸多领域可以说智能车辆的研究是计算机视觉与计算机控制在车辆
[Vue面试] keep-alive 和 $set 的使用

keep alive 的使用汇总于半度温热和圈圈同学 keep alive 概念 keep alive 是 Vue 的内置组件当它包裹动态组件时会缓存不活动的组件实例而不是销毁它们和 transition 相似 keep a
vite性能优化提升开发体验之hmr和预编译

一 vite中的预编译 1 预编译概念介绍 Vite 一个由Vue js开发者尤雨溪开发的新型前端构建工具主要利用了现代浏览器支持的ESM ES模块来进行快速开发 Vite在法语中意为快其中最大的亮点就是其开发服务器启动的速度能够
PostgreSQL基本操作总结

安装按PostgreSQL数据库后会默认创建用户postgres和数据库postgres 这个用户是超级用户权限最高可以创建其他用户和权限在实际开发过程中会新创建用户和业务数据库本文主要介绍用户权限和数据库的基本操作 1 用户权
SQL 在Join 和 Exists查询时对Null 值的处理

文章目录 Join 中 null 值的处理 In 和 Exists 中 null 值的处理 Join 和 Exists 测试准备测试数据 Join 测试 In 和 Exists 测试最近发现SQL在处理Join 和父子查询的时候会对
在Springboot使用form上传图片作为头像，之后通过ajax渲染img的src属性显示图片遇到的路径问题处理小技巧

业务流程大概是这样的在Springboot框架下使用form提单提交用户注册信息包括图片图片被保存到服务器上把图片保存的路径作为属性存入数据库之后显示用户信息的时候通过Ajax获取用户信息将图片的路径赋值给 img 的sr
ES Model 简述

ES Module 浏览器中使用 html 中使用在 html 中 script 标签添加 type module 表示可以以 ES Module 的标准执行其中的 JS 代码 ESM 自动采用了严格模式忽略 use strict 每个
分布式训练数据并行极致优化：ZeRO

分布式训练数据并行极致优化 ZeRO 导言随着 ChatGPT 的爆火大模型成为了近些年人工智能的研究热点大模型能力惊艳但是训练起来成本也不小大模型顾名思义最大的特点就是大这里的大通常指的就是模型的参数量大因此在分
mysql truncate 多个_mysql生产批量处理数据比如批量truncate ..

背景工作中涉及到经常要为QA同学批量清空表记录这里记录一下我的操作过程和遇到的问题最后做一下小结过程拼SQL 这个很简单用 CONCAT 从 information schema 里面获取 TABLE NAME 拼成要执行的一句
Java：Spring的IOC原理（大白话解释）

先行参考以下半成品文章和参考链接待学完课程后续整理此文章 IOC和DI关系 IOC Inversion of Control 控制反转 DI Dependency Injection 依赖注入关系 IOC是一种面向编程设计思想 DI是I
远程仓库上创建一个新的分支 `b` 并将远程分支 `a` 的内容克隆到 `b` 分支上

一需求要在远程仓库上创建一个新的分支 b 并将远程分支 a 的内容克隆到 b 分支上你可以按照以下步骤进行操作二解决方案 1 首先使用 git clone 命令克隆远程仓库到本地例如要克隆一个名为 repo 的仓库可以运行
一个简单的Java抽奖程序

文章目录需求背景设计思路代码实现定义奖品及中奖概率执行抽奖中奖率测试测试结果数据本文逻辑思想比较简单旨在了解后端如何设计抽奖以及控制抽奖概率需求背景现在奖品池有如下奖品序号名称中奖率 0 代金券10元 20 1
uniapp使用svg图片的优化方案

问题 uniapp使用svg图片浏览器测试可以显示出来真机测试无法显示为了解决手机无法显示svg图标的问题本人特意开发了一款插件如有不足请各位指出勿喷 svg icon DCloud 插件市场替换方案使用字体图标 1 打开下
Sublime Text 常用插件安装介绍，从入门到精通（图文系列二）

不懂Sublime Text基础下载安装的请先看这篇 Sublime Text下载安装和Package Control的安装方法在安装Package Control之后我们就可以开启Sublitme Text插件的之路啦下边在这简单的
动手学CV-目标检测入门教程2：VOC数据集

3 2 目标检测数据集VOC 本文来自开源组织 DataWhale CV小组创作的目标检测入门教程对应开源项目动手学CV Pytorch 的第3章的内容教程中涉及的代码也可以在项目中找到后续会持续更新更多的优质内容欢迎如果使用我
使用YOLOV5训练自己的数据集时所遇到问题

训练过程中 1 attributeerror module yaml has no attribute load 方法1 如果另一个名为 yaml py 的文件在 PyYaml 库之前出现在你的 sys path 中就会接收并导入该 ya
ubuntu安装docker

sudo apt get remove docker docker engine docker io containerd runc sudo apt get update sudo apt get install apt transpor
强化学习中累积奖赏公式的推导

转载于强化学习中累积奖赏公式的推导 qingtian11112的博客 CSDN博客强化学习累计奖励 1 一些符号解释 P C D 表示条件概率在D发生的条件下 C发生的概率 E C D 表示在D发生的条件下求C的期望即有 X 表示

热门标签