DDPG（深度确定性策略梯度），actor是如何更新的？

2023-12-25

我目前正在尝试在 Keras 中实现 DDPG。我知道如何更新批评家网络（正常的 DQN 算法），但我目前坚持更新演员网络，它使用以下方程：

因此，为了减少演员网络对其权重 dJ/dtheta 的损失，它使用链式法则来获取 dQ/da（来自批评者网络）* da/dtheta（来自演员网络）。

这看起来不错，但我无法理解如何从这两个网络中导出梯度。有人可以向我解释这部分吗？

所以主要的直觉是，在这里，J 是你想要最大化而不是最小化的东西。因此，我们可以将其称为目标函数而不是损失函数。该方程简化为：

dJ/d'Theta = dQ / da * da / d'Theta = dR/dTheta

这意味着你想要改变参数 Theta 来改变 Q。因为在 RL 中，我们想要最大化 Q，对于这一部分，我们想要做梯度上升。为此，您只需执行梯度下降，除了将梯度作为负值输入之外。

要导出梯度，请执行以下操作：

使用在线参与者网络，发送从重播内存中采样的一批状态。（用于训练批评家的同一批次）
计算每个状态的确定性操作
将用于计算这些动作的状态发送到在线评论家网络，以将这些确切的状态映射到 Q 值。
计算 Q 值相对于步骤 2 中计算的动作的梯度。我们可以使用 tf.gradients(Q value, actions) 来执行此操作。现在，我们有 dQ/dA。
再次将状态发送给演员在线评论家并将其映射到操作。
再次使用 tf.gradients(a, network_weights) 计算动作相对于在线参与者网络权重的梯度。这将为您提供 dA/dTheta
将 dQ/dA 乘以 -dA/dTheta 得到梯度上升。我们留下目标函数的梯度，即梯度 J
将梯度 J 的所有元素除以批量大小，即

对于 J 中的 j，
```
 j / batch size
```
通过首先使用网络参数压缩梯度 J 来应用梯度下降的变体。这可以使用 tf.apply_gradients(zip(J, network_params)) 来完成
砰，你的演员正在训练其参数以最大化 Q。

我希望这是有道理的！我也很难理解这个概念，而且说实话，我对某些部分仍然有点模糊。如果我能澄清任何事情，请告诉我！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Keras

reinforcementlearning

DDPG（深度确定性策略梯度），actor是如何更新的？的相关文章

Keras 服装回调。生成精确召回时，我在 _flow_index 中收到错误

我正在使用 Keras 训练二元分类器我想在每个时期后生成 precision score 和 recall score 以便更深入地分析训练在互联网上我找到了教程帮助例如 https medium com thongonary h
Keras 中的损失函数和度量有什么区别？ [复制]

这个问题在这里已经有答案了我不清楚 Keras 中损失函数和指标之间的区别该文档对我没有帮助损失函数用于优化您的模型这是优化器将最小化的函数指标用于判断模型的性能这仅供您查看与优化过程无关
在不丢失基数信息的情况下对 TensorFlow 数据集进行窗口处理？

tf data Dataset window返回一个新的数据集其元素是数据集这些嵌套数据集的元素是所需大小的窗口如果您有一个数据集例如 Dataset range 10 并想要一个像这样的窗口数据集 0 1 2 1 2 3 7 8
错误 - AttributeError：“DirectoryIterator”对象在 keras 的自动编码器设计中没有属性“ndim”

我是 Python 3 5 的新手我正在尝试编写一个简单的自动编码器它将在 60 张苹果图像的数据集上进行训练并尝试重建根中给出的图像我使用了以下代码 from keras layers import Input Dense fro
Tensorflow Hub - 获取模型的输入形状和问题域？

我正在使用最新版本的tensorflow hub 想知道如何获取有关模型的预期输入形状以及模型属于什么类型的集合的信息例如有没有办法以这种方式在 Python 中加载模型后获取有关预期图像形状的信息 model hub load htt
在 keras 中集成采样的 softmax 失败

基于如何在 Keras 模型中使用 TensorFlow 的采样 softmax 损失函数 https stackoverflow com questions 47892380 how can i use tensorflows sampl
NotImplementedError：尚未为未构建的模型子类启用“fit_generator”

我正在使用以下代码 import tensorflow as tf traindata tf keras preprocessing image ImageDataGenerator rescale 1 255 shear range 0
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
ValueError：没有为“dense_input”提供数据

我正在使用以下简单的代码使用tensorflow加载csv并使用keras执行建模无法弄清楚这个错误 import tensorflow as tf train dataset fp tf keras utils get file fna
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
异常：加载数据时 URL 获取失败

我正在尝试设置我的机器来运行 Tensorflow 2 我从未使用过 Tensorflow 只是下载了 Python 3 7 我不确定这是否是我的机器的问题我按照上面列出的安装说明进行操作TensorFlow 的网站 https www
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
LSTM 和 CNN：ValueError：检查目标时出错：预期 time_distributed_1 有 3 个维度，但得到形状为 (400, 256) 的数组

我要申请CNN and LSTM在我的数据上我只选择一小部分数据我的训练数据大小是 400 50 我的测试数据是 200 50 仅使用 CNN 模型它可以正常工作没有任何错误只是在添加 LSTM 模型时出现了很多错误 model
简单 CAE 的问题

看起来简单的 CAE 不适用于 Carvana 数据集我正在尝试对 Carvana 数据集进行简单的 CAE 你可以下载它here https www kaggle com c carvana image masking challeng
增加 sigmoid 预测输出值？

我创建了一个用于文本分类的 Conv1D 模型当在最后一个密集处使用 softmax sigmoid 时它产生的结果为 softmax gt 0 98502016 0 0149798 sigmoid gt 0 03902826 0 00
keras：zca 美白卡住了 train_datagen.fit()

我尝试将 zca whitening 与 keras 图像处理选项一起使用但计算陷入困境并且永远不会结束我导致问题的代码部分如下所示 train datagen ImageDataGenerator rotation range 30
在 Keras 中使用有状态 LSTM 训练多变量多级数回归问题

我有时间序列P过程每个过程的长度各不相同但都有 5 个变量维度我试图预测测试过程的估计寿命我正在用有状态的方法来解决这个问题LSTM在喀拉斯但我不确定我的训练过程是否正确我将每个序列分成长度的批次30 所以每个序列都是这样的形
使用 TensorFlow 和 Keras 的卷积神经网络精度较低 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我计划创建一个 CNN 来预测蘑菇类型并从互联网上收集了 2500 多张照片数据集有 156 个类别不同类型的蘑菇我在 Tensorfl
Tensorflow 可变图像输入大小（自动编码器、放大......）

Edit WARNING不建议使用不同图像大小的图像因为张量需要具有相同的大小才能实现并行化我一直在寻找解决方案了解如何使用不同大小的图像作为神经网络的输入 Numpy 第一个想法是使用numpy 然而由于每个图像的大小不同我无法

随机推荐

如何为 Python 设置 LIBSVM

I built libsvm http www csie ntu edu tw cjlin libsvm 在 Mac OS X 上使用 Make tar xzfv libsvm 3 17 tar gz cd libsvm 3 17 make
如何在SQL Server 2008中检查字符串是否是阿拉伯语言

如何检查字符串是否为阿拉伯语我必须将语言 ID 列更新为英语或阿拉伯语 IF PATINDEX RTRIM STRING 0 BEGIN SET RETURNVALUE A END ELSE IF PATINDEX A Za z RTRI
Android Retrofit 预期为 BEGIN_OBJECT，但在第 1 行第 1 列路径 $ 处为 STRING

我在 Android 应用程序中使用 okhttp Retrofit 来发出网络请求在其中一个请求中我收到此错误 com google gson JsonSyntaxException java lang IllegalStateExc
PEG 和 CFG 有什么区别？

由此维基百科 http en wikipedia org wiki Parsing expression grammar Semantics page 之间的根本区别上下文无关语法和解析表达式语法是 PEG 的选择运算符是有序的如果
Google Analytics - 使用两个帐户进行异步跟踪

我目前正在同一页面上使用两个不同的跟踪代码来测试 GA 新的异步代码片段 gaq push setAccount UA XXXXXXXX 1 trackPageview b setAccount UA XXXXXXXX 2 b trackP
将闭包更新到 Swift 3 - @escaping

我已将代码更新到 Xcode 8 0 beta 6 但我陷入了似乎与新的非转义闭包默认值有关的问题在下面的代码中 Xcode 建议添加 escaping在前面completion 在下面代码的第一行中但仍然无法编译并继续循环 EDIT
“向‘日期时间’列添加值导致溢出。”

In the MSDN明确表示日期参数不能递增到其数据类型范围之外的值在以下语句中与日期值相加的数值超出了日期数据类型的范围返回以下错误消息向日期时间列添加值导致溢出以及例子 SELECT DATEADD year 2147
将 JSON 对象反序列化为 C# 对象

我正在尝试使用 RestSharp 读取一些 json 数据但我在读取 json 对象时遇到一些问题我有这样的回应 expand html self
jquery 函数根本不触发

真正的愚蠢问题我想我现在应该已经明白了这一点但我显然错过了一些东西我希望我的函数在页面加载后立即触发以检查变量的值并根据该值使按钮出现或消失但我写的函数永远不会被调用我将该函数放置在 Load 和 document ready
容器管理的事务无法回滚

我正在玩交易我配置了 JPA 来处理我的实体并希望将它们保存在数据库中问题是当我的程序抛出runtimeException时 CMT不会回滚这个容器事物背后的想法很难理解而且记录也很少 transactional 托管事务
如何使用 Java 更有效地反转数字

我编写了一些代码来反转数字如下所示 long num 123456789 char arr String valueOf num toCharArray List
当线程被中断/终止时，finally 块可能不会被执行吗？

In Java 教程 http docs oracle com javase tutorial essential exceptions finally html它说的是try finally 注意如果在执行 try 或 catch 代码
JPA动态持久性单元名称

我需要一种方法来动态指定 EJB 中的持久性单元简化示例我有一个使用多个数据库作为数据存储的应用程序每个数据存储在结构上都是相同的根据连接到应用程序的客户端我需要从中访问数据特定的数据存储因此我想使用相同的EJB 这样业务逻
将私有方法设为最终方法？

将私有方法设为final有好处吗这会提高性能吗我认为 private final 没有多大意义因为私有方法不能被重写因此方法查找应该与使用 Final 时一样高效将私有辅助方法设置为静态如果可能会更好吗最好用什么 priv
从 Spring Boot 中的基本身份验证中删除 WWW-authenticate 标头

我正在使用 SpringBoot 设计 REST API 与此同时我正在构建一个使用该 API 的 SPA 为了安全起见我选择了基本身份验证它很容易设置我现在面临401挑战问题当我的 SPA 向我的 API 发出请求时如果身份验
为什么 Python easy_install 无法在我的 Mac 上运行？

我有一台运行 Python 2 6 的 Mac 当我尝试使用时easy install我收到这条消息 usr bin easy install 2 6 7 UserWarning Module pkg resources was alrea
scrapy 不会添加所有项目中不存在的字段？

我从链接获取字段 a b c 并生成 OrderedDict 但是如果满足条件我还不会屈服首先我对另一个链接发出请求将 a b c 字典传输到该请求通过部分并从第二个链接获取字段 d e 并屈服d e a b c 所以有些项目应
在 CAML 查询中使用部分日期

我的列表中的标题列仅包含年份我想做一个视图只显示过去 3 年的情况我尝试在列表定义中使用 CAML 查询
从左连接中选择时出现 NullReferenceException

我正在尝试进行 2 个左连接我已经在 SQL Server 中测试了查询它可以工作但我无法在 linq 中重新创建查询查询 select Master InvoiceId Consumer ConsumerId ConsumerCh
DDPG（深度确定性策略梯度），actor是如何更新的？

我目前正在尝试在 Keras 中实现 DDPG 我知道如何更新批评家网络正常的 DQN 算法但我目前坚持更新演员网络它使用以下方程因此为了减少演员网络对其权重 dJ dtheta 的损失它使用链式法则来获取 dQ da 来自批评

DDPG（深度确定性策略梯度），actor是如何更新的？

DDPG（深度确定性策略梯度），actor是如何更新的？ 的相关文章

随机推荐

热门标签

DDPG（深度确定性策略梯度），actor是如何更新的？的相关文章