强化学习: 参数化动作空间环境gym-platform（1）

2023-05-16

gym-platform环境安装

前提：已经安装里gym

主页：

https://github.com/cycraig/gym-platform

安装：

git clone https://github.com/cycraig/gym-platform.git

cd gym-platform

sudo pip install -e '.[gym-platform]'

gym-platform环境介绍

构造环境

import gym

import gym_platform

env = gym.make('Platform-v0')

动作域

print env.action_space 返回 Tuple(Discrete(3), Tuple(Box(1,), Box(1,), Box(1,)))

产生一个动作实例print env.action_space.sample() 返回 (2, (array([2.5365129], dtype=float32), array([508.39426], dtype=float32), array([424.9122], dtype=float32)))

也可以通过 /gym-platform/gym_platform/envs/platform_env.py

离散动作三个 ACTION_LOOKUP = {0: RUN,1: HOP,2: LEAP,}

连续参数有三个最小值 PARAMETERS_MIN = np.array([0, 0, 0])

连续动作的最大值 PARAMETERS_MAX = np.array([30, # run720, # hop 430 # leap])

状态空间

print env.observation_space 返回 Tuple(Box(9,), Discrete(200)) 是一个9维向量

打开看看效果

for i_episode in range(20):
    observation = env.reset()
    for t in range(1000):
        env.render()  # 环境展示
        print(observation)
        action = env.action_space.sample()  # 随机从动作空间中选取动作
        observation, reward, done, info = env.step(action)  # 根据动作获取下一步的信息
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break

接下来就可以开始使用pamdp的强化学习算法学习啦

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

强化学习: 参数化动作空间环境gym-platform（1）的相关文章

Win7环境下彻底清除VBS病毒的教程

说起VBS病毒 xff0c 可能很多用户并不了解 xff0c 但说起1kb快捷方式病毒 xff0c 用户一定有所耳闻 xff0c 甚至亲身经历 xff0c 这种1KB快捷方式病毒有一个名称叫 xff1a 暴风一号 TA可以通过U盘 MP4
【Qt】【CMake】【CMakelists.txt】-用相对路径引入头文件

Qt CMake希望能用相对路径方式引入自定义的头文件 1 自定义的头文件位置假设 xff1a 自己写的头文件 xff0c 位置是 xff1a mylib include demo h 2 希望用 lt gt 相对路径来包含 main c
cuda学习笔记4——cuda 核函数

cuda学习笔记4 cuda 核函数一 CUDA规范二核函数内部线程的使用2 1 如何启动核函数 demo 1 xff1a 起16个线程来计算 xff0c 四个线程块 xff0c 每个块内四个线程例子demo2 核函数是指在GPU端运行
nvidia-smi命令实时查看GPU使用、显存占用情况

每1秒刷新一次 nvidia smi span class token parameter variable l span span class token number 1 span
cuda学习笔记5——CUDA实现图像形态学腐蚀、膨胀

cuda学习笔记5 CUDA实现图像形态学腐蚀膨胀代码linux如何编译cuda和opencv代码耗时情况代码 span class token comment include 34 cuda runtime h 34 span sp
linux查看系统内存占用排序以及VSZ、RSS内存的区别什么是虚存、实存、共享内存

按照内存大小显示前20个进程 span class token function ps span aux span class token parameter variable sort span span class token oper
C、C++ opencv基本函数

读取并显示图片 span class token comment include lt iostream gt span span class token comment include lt opencv2 opencv hpp gt s
谷歌编码规范积累

谷歌编码规范一魔法数字二 Never use sprintf Use snprintf instead runtime printf 5 三 Using C style cast Use reinterpret cast lt voi
Apollo自动驾驶开发笔记35——apollo运行出现CHECK failed: (scc-＞visit_status.load(std::memory_order_relaxed)) == (SC

问题描述我在apollo上新增component和算法插件结果编译正常运行时出现 CHECK failed scc gt visit status load std memory order relaxed SCCInfoBase k
Win32 GetWindowText()函数获取各种文本示例

include lt windows h gt include 34 resource h 34 LRESULT CALLBACK WindowProcedure HWND UINT WPARAM LPARAM HINSTANCE hIns
Apollo自动驾驶开发笔记36——获取apollo图像数据流并使用opencv显示和读入图像写入图像数据流

Apollo自动驾驶开发笔记36 获取apollo图像数据流并使用opencv显示和读入图像写入图像数据流获取数据流并使用opencv显示读入图片到数据流中读入图片到数据流中平时在开发apollo的时候需要查看数据流是什么样的但
Apollo自动驾驶开发笔记37——apollo编译cuda程序报错 error while parsing .d file .pic.d (No such file or directory)

错误日志最近在apollo里移植yolov8算法编译cuda程序的时候报错日志如下 BUILD 65 11 error span class token keyword while span parsing d file mnt mo
Apollo自动驾驶开发笔记38——apollo编译C++和cuda程序报错this rule is missing dependency declarations for the following

错误日志最近在apollo里移植yolov8算法编译cuda程序的时候报错this rule is missing dependency declarations for the following files included by
ubuntu 20.04 安装 flameshot截图工具

ubuntu 20 04 安装 flameshot截图工具安装命令使用命令设置快捷键效果图安装命令 span class token function sudo span span class token function apt ge
yolov5+tensorrt8 C++部署加速

yolov5 tensorrt C 部署加速参考代码主要参考github https github com yzy12 max yolov5 deploy 码云备份 https gitee com qitiandashengdiyun
ros学习笔记16——旋转平移可视化工具使用

代码地址 xff1a https github com iwatake2222 rotation master 在线查看工具 https iwatake2222 github io rotation master rotation mast
Apollo自动驾驶开发笔记43——编译报错‘this’ argument discards qualifiers [-fpermissive]

Apollo自动驾驶开发笔记43 编译报错 this argument discards qualifiers fpermissive 编译报错如下 xff1a error passing const movex perception on
Apollo自动驾驶开发笔记46——apollo coredump的生成和调试

Apollo自动驾驶开发笔记46 apollo coredump的生成和调试一级目录 1 检查核心转储是否打开 2 在当前命令终端中打开核心转储 3 打开apollo某个dag的coredump apollo调试coredump方法一级
内核自动更新的补救和永久固定内核措施

一解决自动更新的内核服务器重新启动后内核可能被自动更新这就会造成开机后服务器有些服务无法正常使用查看显卡状态 nvidia smi 会有报错作为深度学习算法工程师最不能忍的就是自己辛辛苦苦安装的环境被破坏 nvidia smi
ubuntu 20.04 安装obs 录屏软件

obs是一个非常好用的录屏软件 xff0c 我们在windows安装和使用是非常的简单 xff0c 但是在ubuntu安装还是比较麻烦的 xff0c 需要使用命令行 xff0c 还需要很多的依赖修改源 deb http archive u

随机推荐

Win平台使用cmake工具生成sln工程示例

先安装一个版本的cmake xff0c 3 17 2 这应该是比较新的版本 xff1b 我看到有的示例是3 7以下版本 xff1b cmake加到系统path变量 xff1b 安装完成 xff1b 新建一个C prj目录 xff0c 下面放
Apollo自动驾驶开发笔记47——apollo编译报错this rule is missing dependency declarations for the following files

Apollo自动驾驶开发笔记47 apollo编译报错this rule is missing dependency declarations for the following files 报错信息原因分析解决办法报错信息 01 55
TypeError: hog() got an unexpected keyword argument ‘visualize‘

报错信息运行 svm 43 hog代码 TypeError hog got an unexpected keyword argument visualize 原因分析可能svm不同版本的visualize拼写不一样解决办法我从vis
四旋翼飞行器14——无人机中的OSD、数传、图传、FPV是什么？

四旋翼飞行器14 无人机中的OSD和数传是什么 xff1f 一什么是OSD xff08 无人机领域 xff09 无人机OSD指是视频叠加系统 xff0c 就是把飞行器的状态 xff0c 也就是各个模块的数据 xff0c 比如你装风速仪高
Git使用

原文链接 https www cnblogs com xuwenjin p 8573603 html 1 环境安装 Git最新版下载地址 xff1a https gitforwindows org TortoiseGit xff0c Git
linux no crontab for root - using an empty one Permission denied

今天在linux服务器建个定时任务 xff1a crontab e 的时候 xff0c 一直遇到以下报错 xff0c 真是搞得懵逼 linux no crontab for root using an empty one crontab i
11- OpenCV进行目标追踪 (OpenCV系列) (机器视觉)

知识要点 1 OpenCV目标跟踪算法的使用大概可以分为以下几个步骤创建MultiTracker对象 trackers 61 cv2 legacy MultiTracker create 读取视频或摄像头数据 cap 61 cv2 V
Django密码的哈希算法储存

我们知道密码是用户的隐私数据 xff0c 我们不能将真实的密码值储存在数据库中 xff0c 这样是及其不安全的 xff0c 因此我们可以用哈希算法来将一串明文密码转化为一串不可逆的值 xff0c 也就是说即使有人拿到了数据库中的密码 xff
四轴飞行器——电调校准

电调是驱动电机用的调速器电调的作用 xff1a 电机的电流很大 xff0c 通常每个电机正常工作时的平均电流在3A左右 xff0c 如果没有电调的存在 xff0c 飞控板的I O口无法承受这样大的电流电子调速器负责使电机运行在飞控 xf
异常检测之集成方法

感谢datawhale大部队 xff01 一前言背景 xff1a 在现实异常检测业务场景中 xff0c 数据集是多维度 xff08 通常是成百上千 xff09 的 xff0c 随着维度的增加 xff0c 数据空间的大小 xff08 体积
Spring AOP代码实现：实例演示与注解全解

1 理解AOP 1 1 什么是AOP AOP xff08 Aspect Oriented Programming xff09 xff0c 面向切面思想 xff0c 是Spring的三大核心思想之一 xff08 两外两个 xff1a IOC
Windows下首次安装TensorFlow失败

TensorFlow是一个基于数据流编程 xff08 dataflow programming xff09 的符号数学系统 xff0c 被广泛应用于各类机器学习 xff08 machine learning xff09 算法的编程实现 xf
Mybatis之使用注解开发CRUD

上一篇演示了如何使用XML来操作Mybatis实现CRUD xff0c 但是大量的XML配置文件的编写是非常烦人的因此 Mybatis也提供了基于注解的配置方式 xff0c 下面我们来演示一下使用接口加注解来实现CRUD的的例子首先是创
第16届智能车竞赛双车接力组—直立车经验语录

第16届智能车竞赛双车接力组直立车经验语录前言直立环核心控制算法串级PID转向环控制算法算法框架搭车方法波形拟合调车方法角速度环整定方法角度环整定方法速度环整定方法转向环整定方法其他问题 END 前言这是我第一次参加智能车竞赛 xf
时序异常检测方法总结

异常检测 xff08 Anomaly detection xff09 是时序数据分析最成熟的应用之一 xff0c 目的是从正常的时间序列中识别不正常的事件或行为的过程异常类型 xff1a 点异常 xff0c 上下文异常 xff0c 集合异
中科大 2019 大数据学院计算机专业复试经验分享（一）

复试已经过去很长时间了 xff0c 从拟录取之后就在马不停蹄的找导师 xff0c 确认 xff0c 沟通暑假学习内容 xff0c 旅行 xff0c 报道等等现在已经有时间可以好好总结一下复试踩过的坑大数据学院复试场景复刻 xff1a 复
Robocup 仿真2D 学习笔记（二）球队代码编译和上场

环境的一些问题最近在使用rcssserver 和 rcssmonitor时可能会遇到 configure失败的问题 xff0c 可以检查一下文件夹是否有makefile文件 xff0c 如果是编译后的包直接sudo make instal
Ubuntu16.04+RTX3090+python3+cuda11.1+ CUDNN 8.04+anaconda3+pytorch-nightly深度学习环境搭建实录

硬件信息 cpu Intel R Core TM i7 10700 CPU 64 2 90GHz 显卡 GeForce RTX 3090 网卡 Ethernet Connection 17 I219 V 内存 62GiB System me
ubuntu16.04 python2.7 cuda10.0 安装pytorch1.1.0 torchvision0.3.0

工欲善其事 xff0c 必先利其器显卡驱动版本和cuda版本 xff1f 今天两台电脑训练时发现速度比平时慢了 xff0c 以为是网络的变大导致但nvidia smi发现显存占用少 xff0c gpu速度占用1 xff0c 同时用gno
强化学习: 参数化动作空间环境gym-platform（1）

gym platform环境安装前提 xff1a 已经安装里gym 主页 xff1a https github com cycraig gym platform 安装 xff1a git clone https github com cy

热门标签