如何设置 openai-gym 环境以特定状态而不是“env.reset()”开始？

2023-11-22

今天，当我尝试在openai-gym环境下实现一个rl-agent时，我发现一个问题，似乎所有的agent都是从最初始的状态开始训练的：env.reset(), i.e.

import gym

env = gym.make("CartPole-v0")
initial_observation = env.reset()  # <-- Note
done = False

while not done:
    action = env.action_space.sample()  
    next_observation, reward, done, info = env.step(action)

env.close()  # close the environment

因此代理可以沿着路线行事是很自然的env.reset() -(action)-> next_state -(action)-> next_state -(action)-> ... -(action)-> done，这是一集。但是智能体如何从中间状态等特定状态开始，然后从该状态采取行动呢？例如，我从重播缓冲区中采样体验，即(s, a, r, ns, done)，如果我想直接从状态开始训练代理怎么办ns，并采取行动Q-Network，那么对于一个n-step向前迈出一步。像这样的东西：

import gym

env = gym.make("CartPole-v0")
initial_observation = ns  # not env.reset() 
done = False

while not done:
    action = DQN(ns) 
    next_observation, reward, done, info = env.step(action)
    # n-step later or done is true, break

env.close()  # close the environment

但即使我设置了一个变量initial_observation as ns，我认为代理人或env根本不会意识到这一点。我怎样才能告诉gym.env我想将初始观察设置为ns并让代理知道特定的开始状态，直接从特定的观察中获得继续训练（从特定的环境开始）？

AFAIK，目前大多数 OpenAI 健身房环境的实现（包括CartPole-v0您在问题中使用的）没有实现任何机制来在给定状态下初始化环境。

不过修改起来不应该太复杂CartPoleEnv.reset()方法以接受充当初始状态的可选参数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何设置 openai-gym 环境以特定状态而不是“env.reset()”开始？的相关文章

为什么类型提示不能在 for 循环中使用？

在 a 中注释目标for声明无效 gt gt gt for i str in test string File
组内条件计数

我想在之后进行条件计数groupby 例如按列的值分组A 然后计算每组中值出现的频率5出现在列中B 如果我整个过程都这样做DataFrame 只是len df df B 5 所以我希望我能做到df groupby A df B 5 siz
初始化整数变量以进行比较

我正在学习麻省理工学院的开放课件课程计算机科学和 Python 编程简介 https ocw mit edu courses electrical engineering and computer science 6 0001 introd
如果出现重复，则主键取正值

我有一个数据框df Key1 Key2 Value K11 K21 V1 K11 K21 V1 K13 K23 V2 K13 K23 V2 现在例如对于相同的键 K11 K21 组合我们有 2 个值一负一正如何从此 df 中仅获取正
Python替换多个字符串同时支持反向引用

有一些好方法 https stackoverflow com questions 6116978 python replace multiple strings处理 python 中的同时多字符串替换但是我在创建一个高效的函数来实现这一
数据帧中标志切换之间的行的总和/平均值

我有一个像这样的数据框 id power flag 0 20 0 1 25 0 2 26 1 3 30 1 4 18 0 5 30 0 6 19 0 7 21 1 8 23 0 我正在尝试获取行的平均值总和power柱子输出应该是这样的
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
Windows 中的 Python 多处理池奇怪行为

Python 多处理池在 Linux 和 Windows 之间有不同的行为当按工作人员数量运行方法映射时在 Linux 中它会在您作为参数提供的特定函数的范围内运行该进程但在 Windows 中每个工作进程都在父进程的范围内运行
python win32com.client 调整窗口大小

我正在使用 Python 3 4 1 通过 win32com client 控制 Windows 应用程序我可以激活它我可以发送击键点击等现在我想知道是否有办法调整窗口大小并将其设置到特定位置我找不到方法这里有一些代码片段所以
无法将 librosa 与 python 3 一起使用

我已经在 Windows 上的 ubuntu 子系统上使用 pip3 正确安装了 librosa 但是当我尝试执行像这样的简单程序时 import librosa data sr librosa load sound mp3 print d
Python - 如何实现“可停止”线程？

已经发布解决方案了here https stackoverflow com questions 323972 is there any way to kill a thread in python创建一个可停止的线程但是我在理解如何实施
如果多个测试有特定异常，则停止 pytest 测试

我想使用停止测试套件pytest exit 如果任何测试因特定异常而失败例如 50 个测试其中任何一个都可能在某个时刻因该异常而失败如果这些测试中至少有 2 个测试因该异常而失败我想停止执行我试图保留一个全局计数器一个固定装置s
scrapy获取同一个类的第n个子文本

我附上了一张照片我面临的问题是获取同一类的第一个元素我想得到 adxHeader gt adxExtraInfo 1st one gt adxExtraInfoPart 1st one gt a text 我编写了以下代码但不起作用任
如何将 UPX 与 pyinstaller 一起使用？

如何将 UPX 与 pyinstaller 一起使用我正在关注文档我已经下载了UPX 我的文件如下所示 import csv import selenium import pandas print Hello 然后我运行 pyinsta
如何从 Python 3.5 降级到 3.4

我想安装 kivy 链接在这里 https kivy org docs installation installation windows html install win dist 用于项目但是当尝试使用 pip 安装它所依赖的包时
在 python 2 或 python 3 中编写 csv 文件的便携式方法

在我的 Windows 机器上我通常在 python 2 中这样做来编写 csv 文件 import csv f open out csv wb cr csv writer f delimiter cr writerow a b c f
在 tkinter 和 python 中嵌套网格和框架

我正在尝试在更大的网格结构中的框架内设置一个网格我试图将其提炼为问题的最简单版本 from tkinter import Tk Frame Label Entry root Tk root geometry 800x800 frame1
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面

随机推荐

Netbeans 更新失败

我的互联网连接没有问题但是当我尝试更新 netbeans 插件或 IDE 本身时每次都会出现此屏幕即使重新安装操作系统也无法解决此问题一次又一次地遇到同样的错误我该如何修复它在 Netbeans 中 Go to Tools gt
使用 jQuery 更改图像地图坐标值

我有一个非常复杂的图像映射我想将其缩小一半为此需要将所有坐标值除以 2 由于有数千个坐标值我想我可以使用 jQuery 遍历 DOM 来查找坐标值然后将它们除以 2 当涉及到 JavaScript 和 jQuery 时我非常业余
为什么“复制到输出目录”选择的用语在不同位置之间会发生变化？

VS NET 中的解决方案资源管理器中的配置值措辞与 VS NET 中的预计值之间存在不一致 csproj文件在Solution Explorer a config或依赖文件中会有多个选项Copy To Output Directory影
Laravel 5.6：创建图像缩略图

在我的旧 PHP 应用程序中我曾经运行如下函数来创建 jpeg 图像缩略图 function imageThumbanail image src imagecreatefromjpeg http examplesite com image
Luigi - 覆盖任务需要/输入

我正在使用 luigi 执行一系列任务如下所示 class Task1 luigi Task stuff luigi Parameter def output self return luigi LocalTarget test json
Rust 的句法语法是上下文无关的还是上下文相关的？

几乎没有任何编程语言的句法语法是规则的因为它们允许任意深度嵌套的括号 Rust 也这样做 let x 但 Rust 的句法语法至少是上下文无关的吗如果不是什么元素使语法与上下文相关或者语法是否可以递归枚举例如C 的句法语法 Rel
为什么我需要文档类型？（它有什么作用）[重复]

这个问题在这里已经有答案了可能的重复 HTML DOCTYPE 的功能是什么我最近在这里问了一个问题解决方案很简单您需要向页面添加文档类型这应该可以解决您的问题现在我的页面在没有文档类型的每个浏览器中都可以正常工作 IE 除外
jQuery 多文档就绪队列顺序

我知道 jQuery 中对 function 的调用是按照定义的顺序执行的但我想知道您是否可以控制队列的顺序例如是否可以在 Hello World 1 之前调用 Hello World 2 function alert Hello W
使用 SharpSvn 检索日期范围内的日志条目

我在用着SharpSvn通过 C 代码与我的 svn 存储库交互我使用此代码来检索 svn 日志条目 Collection
如何设置输入超时

如果你等了 4 秒它会说你没时间了这很好但是为了保持循环继续您必须按enter键继续我希望当它在下面打印你没时间了而不是仅仅键入时它会显示一个输入语句例如键入攻击以继续并且循环将从原来的位置继续 from th
SQLAlchemy 根据 JSONB 中的嵌套键进行过滤

我有一个 JSONB 字段有时有嵌套键例子 nested field another URL foo a simple text text first metadata plain string another metadata foo
通过 Uri 将参数传递到 WPF 页面

在导航样式 WPF 应用程序 NavigationWindow 而不是 XBAP 的上下文中超链接的 NavigateUri 是否可以包含额外的参数例如路径数据或查询字符串例如有什么方法可以将我的 NavigateUri 设置为 P
为什么 Django 返回过时的缓存数据？

我有两个 Django 模型如下所示 MyModel1 MyModel2 class MyModel1 CachingMixin MPTTModel name models CharField null False blank False
如何替换SQL中的多个字符？

这是基于类似的问题如何在Access SQL中替换多个字符我写这篇文章是因为sql server 2005似乎对replace 函数在where子句中的替换次数有19次限制我有以下任务需要对列执行匹配并提高使用replace 函数剥
selenium.common.exceptions.WebDriverException：消息：无效参数：对于 ChromeDriver 和 Selenium，值必须是非负整数

我正在研究selenium 3 5 0 Python 3 6 8 我想测试下面编写的简单代码 driver implicitly wait 10 driver get url print driver title sleep 6 drive
文件夹中的文件以绿色突出显示，旁边有数字 1。这意味着什么？

Yesterday a few files in one of my folders git repository have turned green and have a number next to them like so Can a
以类型安全的方式处理 PropertyChanged

有很多文章介绍如何使用反射和 LINQ 以类型安全的方式引发 PropertyChanged 事件而不使用字符串但有什么办法可以consumePropertyChanged 事件以类型安全的方式发生目前我正在这样做 void mod
有没有办法从某种类型的 JSON.NET JObject 中删除节点？

我有一个从 API 返回的 JSON 对象其中一些节点是数组有什么方法可以让我完全根据类型将它们从对象中提取出来吗例如 result field1 value1 field2 val2 val3 field3 val4 field
laravel 自动删除 php artisanserve 上的 server.php

我在 Windows 环境中使用 laravel 5 6 使用 php 7 2 与 xampp 一起安装安装 laravel 后 php artisanserve 命令可以工作但会自动删除 server php 文件只是为了避免这个问
如何设置 openai-gym 环境以特定状态而不是“env.reset()”开始？

今天当我尝试在openai gym环境下实现一个rl agent时我发现一个问题似乎所有的agent都是从最初始的状态开始训练的 env reset i e import gym env gym make CartPole v0 in

如何设置 openai-gym 环境以特定状态而不是“env.reset()”开始？

如何设置 openai-gym 环境以特定状态而不是“env.reset()”开始？ 的相关文章

随机推荐

热门标签

如何设置 openai-gym 环境以特定状态而不是“env.reset()”开始？的相关文章