强化学习highway_env代码解读

2023-05-16

写在前面

作为强化学习的新手,写这个系列的博客主要是为了记录学习过程,同时也与大家分享自己的所见所想。前段时间发布了人生第一篇博客,是关于highway_env的自定义环境。但博客主要是关于如何创建一个自己的环境的py文件,是基于十字路口环境创建的。在经过一段时间的摸索之后,现在基本能理清楚highway_env的代码结构。希望我的分享能帮大家理清环境的实现代码,大伙都能创建出自己的强化学习自动驾驶环境。

highway_env代码结构梳理

highway_env的代码结构相对来说是很清晰的,下图的几个文件构成了环境生成的主要代码:

 下面我们就详细来看看这几个文件夹。

envs文件夹

下图的文件是基于一些方法和包自带的一些环境(其中MyIntersection是自己添加的):

这些文件具体是怎么写的,等后面有时间我会更新一篇博客说一说自己的理解,在这我重点介绍一下这些文件都是基于哪些方法或者包写出来的。

首先最重要的包是envs/common中的几个文件:

如果了解强化学习基础马尔科夫决策过程,从这几个文件的命名都不难猜出它们的主要作用是什么。

首先abstract这个抽象类定义了很多抽象的方法,这些方法可以理解成抽象的MDP问题的更新过程,在使用不同智能体对于环境问题进行训练的时候,这些方法往往会被重写。

action文件可以猜到主要是定义了一些动作空间,在不同环境中我们会选取不同的动作空间。里面主要有连续和离散的动作空间可供我们选择,后面如果有需要我也会更新如何去修改动作空间。

finite_mdp定义了TTC碰撞网格,还没怎么细看,但大概作用是利用TTC计算一个状态奖励。这里面的方法会在状态空间的建立中调用。

graphics主要是可视化函数,不重要的。

observation主要是状态空间的定义,其中定义如下图形式的状态空间,感兴趣大家可以自行了解,如果大家感兴趣我在了解每一种状态空间的特点后可以出一期的博客。

以上就是在envs/common的相关代码,这些代码可以构建一个完成的MDP决策过程,但只有决策过程没有用,我们还需要参与交互的道路和汽车。这两个要素分别写在vehicle文件夹和road文件夹中。

 road文件夹

 还是一次对每个文件夹的大致功能进行介绍吧。

首先graphics主要是可视化的方法,以及一些渲染过程的参数设置,感兴趣大家可以看看。

lane文件定义了集中类型的车道,有抽闲车道、直线车道、正弦车道和多项式拟合车道,这些车道也是后面road建立的基础。

regulation定义了车辆的优先通行规则,比如避让直行,或者右转现行等,这些基本的交通规则。

road定义了很多生成道路的方法,要结合车道线。行驶规则以及生成车辆才能构成一条路网,而road的一些方法就是用来联系这一系列的元素。详细的大家可以参考envs/中已经配置好的环境py文件,能了解到道路的生成方式。

vehicle文件

最后是生成车辆的方法文件:

在behavior文件中主要定义了纵向和横向两种控制策略的方法,定义车辆间的行为控制,这里面不涉及动作的输入,因此这里面的方法针对所有的环境车辆和主车都适用。

controller文件定义了主车执行动作的控制逻辑,修改动作空间也需要修改这里面的控制逻辑。

dynamics是作者自己写着玩的一个动力学模型,感兴趣的同学可以结合这段代码,看能不能将运动学模型改成动力学模型。

kinematics定义的应该是一个简单的自行车运动学模型,这里可能车辆专业的同学比较清楚,主要是用车辆的x和y的速度以及航向角描述运动状态的模型,是属于比较简单的车辆运动学模型。同时将状态量以字典形式储存,后续训练的时候会使用。可以自行修改一些参数。

graphics同样是可视化方法。

最后的objects应该是将道路中所有对象都看成矩形,可以调整车的大小,同时基于几何尺寸写了碰撞检测的方法。这里面的类被调用在了kinematics,大家可以依据自己需要的环境进行参数修改,其中还定义了一个生成障碍物的方法。

总结

以上是对highway_env的代码解析,由于自身才疏学浅,很多地方可能理解有误,希望各位大佬批评指正。同时由于代码量较大,很多细节都是一笔带过,没有详细说明细节,还请见谅。后面我也会依据情况和反馈更新一些环境配置代码分析、动作空间修改,多种状态空间的对比和强化学习基础等相关内容。希望能与各位大佬多多交流学习。

 

 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

强化学习highway_env代码解读 的相关文章

  • Matlab在线运行网址

    下载正版matlab麻烦 xff0c 耗内存 xff0c 在线的matlab运行器不香吗 xff1f 在线运行网址 打开后是这样的一个界面 然后我们把左边框的内容换成自己的代码之后点击Execute运行就可以在右边显示代码的运行结果了
  • 《手把手教你学嵌入式无人机》——入门航模遥控器使用(MC6C)

    一 MC6C入门航模遥控器简介 六通道MC6C迈克遥控器是普遍使用的一款入门航模遥控器 xff0c 价格较为低廉 xff0c 同时性能比较稳定 xff0c 性价比较高 遥控器与接收机 1 基本参数 xff1a 遥控器 xff1a 遥控范围
  • (一)Jetson Agx Xavier 装系统Ubuntu

    买不到nvidia Agx Xavier 所以用的是rtimes代替 目前是暑假打算做一辆无人车玩玩 拿到手后和树莓派 TX2感觉很像 xff0c 可以直接插鼠标键盘 显示器网线等还是很方便 虽然不是原厂 xff0c 看手册应该是 nvid
  • (三)Jetson Agx Xavier 串口使用

    暂时没有需要串口的地方 xff0c 不过先写在这备用 xff0c 主要就是配置一下 dev ttyTHS1这里的串口 xff0c 波特率 xff0c 奇偶校验这些 xff0c 比较简单 xff0c 和正常的电脑配置串口差不多 uart py
  • Ubuntu18.04实现ROS安装及小海龟实例

    目录 一 ROS简介1 含义2 发展 二 ROS安装1 添加软件源2 添加密钥3 安装ROS4 初始化rosdep5 设置环境变量 三 小海龟实例1 运行小海龟2 话题器查看节点信息3 控制量移动海龟4 C 43 43 程序编写小海龟圆形
  • iviewadmin本地调试线上接口

    修改vue config js文件 xff1a devServer proxy 39 adminapi 39 target 39 这里写自己的域名 api 39 changeOrigin true pathRewrite function
  • ESP32之FreeRTOS--任务的创建和运行

    文章目录 前言一 创建任务和删除函数1 xTaskCreate 2 xTaskCreateStatic 3 xTaskCreateRestricted 4 vTaskDelete 二 任务函数和任务控制块TCB1 任务函数模板2 TCB 三
  • Linux之V4L2驱动框架

    目录 一 V4L2简介 二 V4L2操作流程 1 打开摄像头 2 查询设备的属性 能力 功能 3 获取摄像头支持的格式 4 设置摄像头的采集通道 5 设置 获取摄像头的采集格式和参数 6 申请帧缓冲 内存映射 入队 xff08 1 xff0
  • C语言 多个文件同时使用一个全局变量

    在做嵌入式实验时 xff0c 需要在多个文件中修改同一个全局变量实现程序控制 xff0c 方式如下 xff1a 在某个头文件中声明全局变量 例 xff1a 文件名 xff1a status h span class token macro
  • Java实现简单赛事通知(大二水平)

    目录 前言 代码 总结 前言 实验目的与要求 了解接口与多态的应用场景 xff0c 熟练掌握接口的定义与实现类的编写 xff0c 了解面向对象的设计原则 xff0c 能够灵活应用接口 继承和组合构建更具弹性的软件架构 xff0c 初步体验面
  • 字符串赋值指针变量与普通变量的区别

    普通变量和指针变量用字符串赋值时是有区别的 特别是数组与字符串 xff0c 数组名本质上是数组的首地址 在对指针 数组 xff08 名 xff09 用字符串同样如此 xff0c 赋值时同样为首地址 对于普通变量 xff0c 赋值操作实际上是
  • C语言中 井号#、双井号##

    在 C 语言中 xff0c 井号 34 34 是一个预处理器指令的符号 xff0c 用于在编译之前处理代码 预处理器指令以 34 34 开始 xff0c 以换行符结束 常见的预处理器指令包括 xff1a include xff1a 包含一个
  • C++中的双冒号::

    在C 43 43 中 xff0c 双冒号 xff08 xff09 被用作作用域解析运算符 类作用域解析运算符 在C 43 43 中 xff0c 如果要在类的定义外部定义或实现成员函数或静态成员变量 xff0c 则必须使用双冒号运算符来引用类
  • c++中::和.区别

    在C 43 43 中 xff0c 34 34 和 34 34 都是用于访问类的成员 xff08 包括成员函数和成员变量 xff09 的运算符 xff0c 但它们有一些重要的区别 34 34 被称为作用域解析运算符 xff0c 用于访问全局作
  • Widget::Widget(QWidget *parent)为什么要传入父级指针?

    Widget Widget QWidget parent QWidget parent 列表初始化语法来初始化基类QWidget的构造函数 ui new Ui Widget 初始化指向Ui Widget类对象的指针ui 在类的声明里定义Ui
  • 拷贝构造函数为什么要传入引用

    拷贝构造函数是用于创建一个新对象并将其初始化为另一个对象的副本的特殊构造函数 在拷贝构造函数中 xff0c 如果我们将参数作为值传递 xff0c 那么会发生对象复制 xff0c 这将导致无限递归的调用 xff0c 因为拷贝构造函数的调用需要
  • 使用vscode开发apicloud

    1 第一步 xff1a VScode安装apicloud插件 xff1b 2 第二步 xff1a 配置apicloud插件里面工作区的Apicloud Subdirectories路径 路径是 xff1a VUE目录 src 3 第三步 x
  • 构造函数的调用规则

    在面向对象编程中 xff0c 构造函数是用于创建对象的特殊函数 构造函数的调用规则如下 xff1a 当创建一个对象时 xff0c 会自动调用该对象的构造函数 构造函数的名称必须与类的名称相同 构造函数可以有多个重载版本 xff0c 但是必须
  • 深拷贝与浅拷贝

    深拷贝和浅拷贝是指在计算机编程中 xff0c 当需要复制一个对象时 xff0c 复制出来的副本与原对象之间的关系的不同 浅拷贝是指在复制对象时 xff0c 只复制了对象本身的值 xff0c 而没有复制对象包含的子对象 也就是说 xff0c
  • C++三种继承方式的区别

    访问方式分为两种 xff0c 一种是类内访问 xff0c 还有一种是类外访问 xff1b 所谓类内访问 xff0c 就是类内的函数中是使用了属性 xff1b 类外访问 xff0c 就是新建一个实例对象 xff0c 并访问这个对象的属性 xf

随机推荐

  • python爬虫之数据解析(BeautifulSoup)

    BeautifulSoup也是python爬虫常用的一种数据解析方法 xff0c 主要就两步 1 实例化一个Beautifulsoup对象 xff0c 平且将页面源码数据加载到该对象中 2 通过调用Beautifulsoup对象中相关的属性
  • 蓝桥杯嵌入式第十四届省赛题目解析

    前几天刚刚参加完第十四届的省赛 xff0c 这届题目比我想象中的要难 xff0c 其实想一想这也是应该的 xff0c 以前的知识点都被摸透了 xff0c 也是需要加入新的知识点了 xff0c 但是我还是想说能不能别在我参加的时候加大题目难度
  • dockerfile构建

    2 简答题 编写Dockerfile制作镜像 xff0c 生成镜像名为my build Nginx2 首先创建目录dockerfile nginx2 xff0c 保存Dockerfile文件 具体要求如下 xff1a 1 基于镜像cento
  • 安装虚拟机之后怎么配置虚拟环境、深度学习、深度强化学习环境安装

    安装步骤目录 一 配置虚拟机VMware安装包 amp Ubuntu的光盘映像文件 xff1a VMware安装Ubuntu安装 二 进入虚拟机配置环境深度 xff08 强化 xff09 学习环境的配置1 得知系统所自带python版本 x
  • 力扣-刷题方法总结(测试文章)

    知乎方面收集到的资料 xff08 非原创 xff0c 题主只是对其进行统一的整理 xff0c 方便后续查看 xff09 算法训练讲究循序渐进 xff1a 1 先从简单开始 xff0c 然后过度到中等 xff0c 再过渡到困难的进程 2 如何
  • 文件分隔符 ‘/‘(斜杠) 和 ‘\‘(反斜杠) 的使用

    前言 在学习时 xff0c 总会用到 Windows 和 Linux xff0c 输入路径时 xff0c 文件路径分隔符有时用 xff08 斜杠 xff09 xff0c 有时用 xff08 反斜杠 xff09 xff0c 属实不好区分 xf
  • VMware虚拟机安装Win11教程(解决常见报错)

    前言 今天闲来无事 xff0c 就想着装一下最新版的win11玩一下 xff0c 然后来来去去还是折腾了一些时间 xff0c 有遇到一些错误不过最好都找到了解决办法 xff0c 下面我就分享一下VMware虚拟机安装win11的详细步骤 V
  • vue打包后neditor不显示了

    原因是vue和vue template compiler 1 两者的版本不一致 xff1b 2 两者的版本低了 xff1b 例如 xff1a 我出问题的版本是 34 vue 34 34 2 5 10 34 34 vue template c
  • 【Docker常用命令】

    Docker常用命令 xff08 学习笔记 xff09 一 Docker基础命令二 Docker镜像命令三 Docker容器命令3 1 运行容器3 2 退出容器3 3 查看容器进程 xff0c 日志3 4 再次进入容器3 5 容器启停3 6
  • OpenCV学习——ArUco模块

    前提介绍 xff1a ArUco模块是OpenCV的contrib拓展库中一个模块 xff0c 需要安装OpenCV的 contrib拓展库 才能正常使用 ArUco标记 xff1a ArUco 标记是由 宽黑色边框 和 确定其标识符 xf
  • 【Vue】报错:Avoid mutating a prop directly since the value will be overwritten whenever the parent

    当我们直接改变父组件的 props 值是会报以下警告 xff1a Vue warn Avoid mutating a prop directly since the value will be overwritten whenever th
  • 深蓝学院-机器人运动规划学习笔记-第一章

    第一课 移动机器人运动规划 Motion planning for mobile robots IntroductionCourse outlineTypical planning methods overviewMap represent
  • opencv+python实战日记 入门篇(八)色块识别

    色块识别 import cv2 import numpy as np frameWidth 61 640 frameHeight 61 480 cap 61 cv2 VideoCapture 0 获取摄像头 cap set 3 640 ca
  • highway_env中自定义环境

    前言 highway env中集成了很多强化学习或者控制算法测试的驾驶环境 xff0c 但很多时候我们需要依据需求对环境进行自定义 xff0c 这里给出了自定义环境的一些步骤 xff0c 主要是基于gym 61 61 0 26版本 创建步骤
  • 深度相机和激光雷达的融合标定(Autoware)

    深度相机和激光雷达是智能汽车上常用的传感器 但深度相机具有特征难以提取 xff0c 容易受到视角影响 激光雷达存在数据不够直观且容易被吸收 xff0c 从而丢失信息 因此在自动驾驶领域 xff0c 需要对于不同传感器做数据的融合和传感器的标
  • 基于OpenCv和ROS的图像灰度化处理

    直接调用opencv灰度化函数 xff0c 对于本地图像进行处理 实现C 43 43 代码如下 xff1a 图像灰度化 include lt iostream gt cv cvtColor头文件 include lt opencv2 img
  • IMU的轨迹解算和航迹显示

    基于ros操作系统 xff0c 调用IMU数据包 xff0c 利用数据解算小车运动的轨迹 xff0c 并在rviz中实现轨迹的可视化 其中IMU四元数对于位移速度和加速度的转换 轨迹解算和换机显示的代码 xff1a IMU航迹推算 incl
  • 对IMU数据进行卡尔曼滤波

    我们要使用IMU数据 xff0c 必须对数据进行预处理 xff0c 卡尔曼滤波就是很好的方式 1 卡尔曼滤波 卡尔曼滤波 xff08 Kalman filtering xff09 是一种利用线性系统状态方程 xff0c 通过系统输入输出观测
  • PHPExcel导出导入问题”continue” targeting switch is equivalent to “break”.Did you mean to use “continue 2”?

    在 php 7 3 的 switch 中使用 continue 会出现警告 1 2 3 最好的方式是把 PHPExcel Shared OLE php 文件中的 continue 改为 continue 2 或 break 亲测 xff0c
  • 强化学习highway_env代码解读

    写在前面 作为强化学习的新手 xff0c 写这个系列的博客主要是为了记录学习过程 xff0c 同时也与大家分享自己的所见所想 前段时间发布了人生第一篇博客 xff0c 是关于highway env的自定义环境 但博客主要是关于如何创建一个自