使用Keras和深度确定性策略(DDPG)来玩TORCS

2023-11-09

背景

DQN的一大局限性是输出/动作是离散的，而车辆转向是连续的。使DQN适应连续域的一种明显方法是简单的离散化操作空间。然而只是简单地离散化操作空间会受到‘维度的诅咒’问题。
深度确定性策略由三种技术结合：1）确定性策略梯度算法(输出的是每个动作的概率)2）演员评论者方法(会定义另一个网络对动作的好坏进行评价)3）DQN网络(输出的是动作的价值)

策略网络

定义一个策略网络，该网络将采用游戏状态，并决定车辆应该做什么。基于策略的强化学习。其中策略可以认为是代理的行为，即从状态映射到操作的函数。

确定性与随机性策略

确定性策略是看到一个特定的状态输入，然后采取特定的行动。但有时确定性策略不起作用就需要采取随机性策略。

如何找到策略，则需要采用强化技术。当AI撞到路边，获得负奖励，此时神经网络会调整参数。再数学语言中定义这些策略为目标函数。

演员评论家算法

本质上是一种混合方法，将基于策略梯度的方法和值函数方法组合起来。策略函数称之为参与者，而值函数称之为批评者。本质上，演员产生动作一个给定环境的当前状态，而批评家则发出信号来批评演员的行为。使用连续Q学习（SARSA）作为批评者，使用策略梯度方法作为执行者模型。

演员网络

使用了两个隐藏层，300和600个隐藏单元，输出包括三个连续动作。
转向的激活函数是tanh,加速度和制动则是sigmoig。
使用keras的merge将三个输出组合出来

评论家网络

使用了2个隐藏层，包括300个和600个隐藏单位。评论家网络将状态和动作作为输入。

目标网络

使用目标网络用于计算目标值，通过让这些目标网络缓慢跟踪学习的网络来更新这些目标网络的权重。
目标值被限制换道变化，大大提高了学习的稳定性。

DDPG代码

以数组形式接收传感器的输入、传感器的输入将被输入到神经网络中，网络将输出三个实数、该网络将通过深度确定性策略梯度进行多次训练，以最大化未来的预期回报。

将来函数：最大化纵向速度，最小化横向速度，AI不偏离轨道中心

探索算法的设计

奥恩斯坦-乌伦贝克过程
一个具有均值还原性质的随机过程。

体验回放

在训练网络时随机迷你批次，而不是大多数最近过渡，这将大大提高稳定性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

面试

Keras

人工智能

深度学习

使用Keras和深度确定性策略(DDPG)来玩TORCS 的相关文章

检查输入时出错：预期 conv2d_1_input 有 4 个维度，但得到形状为 (800, 1000) 的数组

我正在尝试使用 CNN 进行情感分析我的代码我的数据具有 1000 1000 形状当我将数据传递给 convolution2D 时它会抛出一个错误我无法解决我尝试了以下解决方案但仍然面临问题在构建 CNN 时我收到 Kera
Keras 自定义损失函数：访问当前输入模式

在 Keras 带有 Tensorflow 后端中当前输入模式可用于我的自定义损失函数吗当前输入模式被定义为用于产生预测的输入向量例如请考虑以下情况 X train X test y train y test train test
使用 CustomCallback() 类在训练时实现冻结层

我正在尝试在 TensorFlow 中训练自定义 CNN 模型我想以某种方式在训练仍在运行时冻结特定时期模型的某些层我已经实现了冻结层但我必须在某些时期训练模型然后在我想要冻结的特定层中将可训练属性更改为 False 然后编译模型
加载视频数据集（Keras）

我正在尝试实现 LRCN C LSTM RNN 来对视频中的情绪进行分类我的数据集结构分为两个文件夹 train set 和 valid set 当你打开其中任何一个时你可以找到3个文件夹积极消极和惊喜最后这 3 个文件夹中
tf.data.Dataset 迭代器返回 Tensor("IteratorGetNext:1", shape=(None, 16), dtype=int32) 但无法获取张量的值

我正在尝试编写一个自定义模型其中我正在编写一个自定义train step功能我正在从自定义数据生成器创建 tf data Dataset 例如 tds tf data Dataset from generator tdg iter ar
从 keras 模型中将特征提取到数据集中

我使用以下代码由here https github com keras team keras blob master examples mnist cnn py 运行 CNN 来训练 MNIST 图像 from future import
Keras 导入错误 Nadam

我在尝试导入 Keras 模块 Nadam 时遇到导入错误 gt gt gt from keras optimizers import Nadam Traceback most recent call last File
Keras AttributeError：“顺序”对象没有属性“predict_classes”

我试图按照本指南找到模型性能指标 F1 分数准确性召回率 https machinelearningmastery com how to calculate precision recall f1 and more for deep l
Keras 中的 Tensorflow 自定义损失函数 - 张量循环

我正在尝试在 Keras 中编写自定义损失函数如下所示 Keras 中的自定义损失函数 https stackoverflow com questions 43818584 custom loss function in keras 我的
当我想在电脑中加载该模型时，我可以在 colab bu 中加载我的深度模型，但我不能

我在colab中通过keras 2 3 1和tensorflow 2 1 0训练了一个深度模型我用JSON和Keras保存了我的模型 saveWeightPath content drive My Drive model info mod
Keras 服装回调。生成精确召回时，我在 _flow_index 中收到错误

我正在使用 Keras 训练二元分类器我想在每个时期后生成 precision score 和 recall score 以便更深入地分析训练在互联网上我找到了教程帮助例如 https medium com thongonary h
错误 - AttributeError：“DirectoryIterator”对象在 keras 的自动编码器设计中没有属性“ndim”

我是 Python 3 5 的新手我正在尝试编写一个简单的自动编码器它将在 60 张苹果图像的数据集上进行训练并尝试重建根中给出的图像我使用了以下代码 from keras layers import Input Dense fro
如何确定 Keras Conv2D 函数中的“filter”参数

我刚刚开始我的 ML 之旅并且已经完成了一些教程对我而言不清楚的一件事是如何为 Keras Conv2D 确定过滤器参数我读过的大多数资料只是将参数设置为 32 没有任何解释这只是经验法则还是输入图像的尺寸起作用例如 CIF
了解 YOLO 是如何训练的

我试图了解 YOLO v2 是如何训练的为此我使用这个 keras 实现https github com experiencor keras yolo2 https github com experiencor keras yolo2在
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
将 Pytorch LSTM 的状态参数转换为 Keras LSTM

我试图将现有的经过训练的 PyTorch 模型移植到 Keras 中在移植过程中我陷入了LSTM层 LSTM 网络的 Keras 实现似乎具有三种状态类型的状态矩阵而 Pytorch 实现则具有四种状态矩阵例如对于hidden l
ValueError：张量：（...）不是该图的元素

我正在使用 keras 的预训练模型在尝试获取预测时出现错误我在烧瓶服务器中有以下代码 from NeuralNetwork import app route uploadMultipleImages methods POST def
ValueError：没有为“dense_input”提供数据

我正在使用以下简单的代码使用tensorflow加载csv并使用keras执行建模无法弄清楚这个错误 import tensorflow as tf train dataset fp tf keras utils get file fna
如何在 keras 中添加可训练的 hadamard 产品层？

我试图在训练样本中引入稀疏性我的数据矩阵的大小为比如说 NxP 我想将其传递到一个层 keras 层该层的权重大小与输入大小相同即可训练权重矩阵W的形状为NxP 我想对这一层的输入矩阵进行哈达玛乘积逐元素乘法 W 按元素与输入相乘
异常：加载数据时 URL 获取失败

我正在尝试设置我的机器来运行 Tensorflow 2 我从未使用过 Tensorflow 只是下载了 Python 3 7 我不确定这是否是我的机器的问题我按照上面列出的安装说明进行操作TensorFlow 的网站 https www

随机推荐

java实用类之正则工具类

正则工具类 public class PatternUtil 匹配邮箱正则 private static final Pattern VALID EMAIL ADDRESS REGEX Pattern compile A Z0 9 A Z0
EL文件上传

一通过时间修改与文件上传 weixin 43985399的博客 CSDN博客查询并添加相应的文件二编辑前端页面
[操作系统]3.内存管理

和前面两篇是差不多的思路仅为快速复习操作i系统基础知识点例题暂无考试不要参考知识点来自王道操作系统 1 内存管理的基本要求和设定内存管理主要完成的功能有内存空间的分配和回收地址转换把逻辑地址转化为内存物理地址内存空间的扩充
LUT学习了解

知乎 LUT Lookup Table 颜色查找表通过LUT可以将一组RGB值输出为另一组RGB值从而改变画面的曝光与色彩如果我们规定当原始R值为0时输出R值为5 当原始R值为1时输出R值为6 当原始R值为2时输出R值为8 当
Android开机服务启动流程

在Android系统启动时候会解析init rc文件然后根据里面的定义启动各种服务如netd zygote servier manager等等但这些服务之间其实是有依赖关系的而且当其中的某个服务启动失败时有时候会影响后续的服务
火爆！GitHub 标星 144k 的前后端学习路线，2021 年最新整理，看完后不再迷茫不再徘徊

正在光顾 CSDN 的你好呀我是沉默王二上周在欣赏阮一峰老师的科技周刊时发现了一个牛逼的学习路线在 GitHub 上已经标星 144k 了简直火爆里面不仅涵盖了前端和后端的学习路线还有运维的学习路线作为一名程序员如果
计算机组成原理实验一报告——运算器

一实验目的了解和掌握Am2901运算器的组成结构和工作原理认识和掌握TEC 2机运算器的组成和工作原理认识和掌握TEC 2机运算器相关控制信号的含义和使用方法二实验原理 Am2901运算器 1 Am2901 芯片内部组成结构 A
276_Python_桌面的一个TXT文档里的内容，插入到Word文档的指定位置

在当前Word文档的第几段插入内容当你需要将一个TXT文档的内容插入到Word文档的特定位置时你可以使用Python的docx库来处理Word文档以及内置的文件操作功能来读取TXT文档首先确保你已经安装了docx库如果没有可以
敏捷--寻求更小发布集

鱼骨思维核心主线优先级模型差异化功能具有明显竞争优势的功能特性搅局功能瞄准并用于叫板差异化产品的功能特性快速低价或者强势营销的方式进入市场降成本功能可以降低组织成本的功能基础功能参与市场竞争的必要性基础功能 mvp理解
FFmpeg降低编码延迟记录

背景最近使用FFmpeg编码时 264 265的软编和NVIDIA硬编有不同程序的缓存具体表现就是调用avcodec send frame多次后才能调用avcodec receive packet一次自测x264缓存了40帧 h26
Linux_Vs2017 error pthread

解决办法右键 gt 属性添加pthread
深入理解python中的None对象

1 None None是python中的一个特殊的常量表示一个空的对象空值是python中的一个特殊值数据为空并不代表是空对象例如等都不是None None和任何对象比较返回值都是False 除了自己 gt gt gt L gt
eclipse中将Maven Dependencies Libraries移除后的恢复办法

参考文章转载地址在eclipse中如果你不小心在properties gt Java Build Path中将Maven Dependencies Libraries 移除了怎么恢复呢解决办法 1 右键你的项目 gt Maven g
传输层 —— FTP

一 FTP 二 FTP工作原理
C++学习（四九零）add_library生成动态库和静态库

1 静态库 add library hello library STATIC src hello cpp 2 动态库注意这里是SHARED 而不是DYNAMIC add library hello library SHARED src h
mac下使用docker安装mysql

拉取mysql镜像 docker pull mysql 拉取完后大致是这样的控制台输出因为我这里已经拉取过了这时候我们查看一下镜像是否拉取下来查看镜像拉取状态 docker container ls 在这里我们可以看到我的镜像是在5天
函数的声明和定义

C语言中一个完整的函数由函数首部和函数体构成而且定义函数时两者都是必不可少的函数声明表示有这么个函数了函数定义就是具体实现了举个例子函数声明 int fun int a int b 函数定义 int fun int a int b
目标跟踪算法三：Modeling and Propagating CNNs in a Tree Structure for Visual Tracking (VOT2016冠军)

目标跟踪算法三 Modeling and Propagating CNNs in a Tree Structure for Visual Tracking VOT2016冠军文章链接 https arxiv org pdf 1608 07
跟着英雄刷算法-因式分解和枚举

补上前天落下的题目一 int kthFactor int n int k int cnt 0 for int i 1 i lt n i if n i 0 k if 0 k return i return 1 题目二 int closest
使用Keras和深度确定性策略(DDPG)来玩TORCS

背景 DQN的一大局限性是输出动作是离散的而车辆转向是连续的使DQN适应连续域的一种明显方法是简单的离散化操作空间然而只是简单地离散化操作空间会受到维度的诅咒问题深度确定性策略由三种技术结合 1 确定性策略梯度算法输出的是每

热门标签