py_environment“time_step”与“time_step_spec”不匹配

2024-03-17

我通过 tf 代理创建了一个自定义 py 环境。但是我无法使用 py_policy.action 验证环境或在其中采取步骤我对 time_step_specs 中排除的内容感到困惑

我尝试通过 tf_py_environment.TFPyEnvironment 转换为 tf_py_environment 并成功地使用 tf_policy 采取行动，但我仍然对其中的差异感到困惑。

import abc
import numpy as np
from tf_agents.environments import py_environment
from tf_agents.environments import tf_environment
from tf_agents.environments import tf_py_environment
from tf_agents.environments import utils
from tf_agents.specs import array_spec
from tf_agents.environments import wrappers
from tf_agents.trajectories import time_step as ts
from tf_agents.policies import random_tf_policy
import tensorflow as tf
import tf_agents

class TicTacToe(py_environment.PyEnvironment):
   def __init__(self,n):
    super(TicTacToe,self).__init__()
    self.n = n
    self.winner = None
    self._episode_ended = False
    self.inital_state = np.zeros((n,n))
    self._state = self.inital_state
    self._observation_spec = array_spec.BoundedArraySpec(
        shape = (n,n),dtype='int32',minimum = -1,maximum = 1,name = 
'TicTacToe board state spec')
    self._action_spec = array_spec.BoundedArraySpec(
        shape = (),dtype = 'int32', minimum = 0,maximum = 8, name = 
'TicTacToe action spec')

def observation_spec(self):
    return self._observation_spec

def action_spec(self):
    return self._action_spec

def _reset(self):
    return ts.restart(self.inital_state)

def check_game_over(self):
    for i in range(self.n):
        if (sum(self._state[i,:])==self.n) or 
(sum(self._state[:,i])==self.n):
            self.winner = 1
            return True

        elif (sum(self._state[i,:])==-self.n) or 
    (sum(self._state[:,i])==-self.n):
            self.winner = -1
            return True

    if (self._state.trace()==self.n) or 
(self._state[::-1].trace()==self.n):
        self.winner = 1
        return True
    elif (self._state.trace()==-self.n) or (self._state[::-1].trace()==- 
   self.n):
        self.winner = -1
        return True

    if not (0 in self._state):
        return True

def _step(self,action):
    self._state[action//3,action%3]=1
    self._episode_ended = self.check_game_over

    if self._episode_ended==True:
        if self.winner == 1:
            reward = 1
        elif self.winner == None:
            reward = 0
        else:
            reward = -1
        return ts.termination(self._state,dtype = 'int32',reward=reward)
    else:
        return ts.transition(self._state,dtype = 'int32',reward = 
0.0,discount = 0.9)

env = TicTacToe(3)
utils.validate_py_environment(env, episodes=5)

这是我得到的错误：

ValueError Traceback（最近一次调用最后一次）在 ----> 1 utils.validate_py_environment(env, Episodes=5)

C:\Users\bzhang\AppData\Local\Continuum\anaconda3\lib\site-packages\tf_agents\environments\utils.py 在 validate_py_environment（环境，情节） 58 引发值错误（ 59'鉴于time_step: %r 与预期不符time_step_spec：%r'% ---> 60（时间步长，时间步长规格）） 61 第62章行动=random_policy.action(time_step).action

值错误：给定time_step: TimeStep(step_type=array(0), 奖励=array(0., dtype=float32), 折扣=array(1., dtype=float32), 观察=array([[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])) 与预期不匹配time_step_spec: TimeStep(step_type=ArraySpec(shape=(), dtype=dtype('int32'), name='step_type'),reward=ArraySpec(shape=(), dtype=dtype('float32'), name='reward '), 折扣=BoundedArraySpec(shape=(), dtype=dtype('float32'), 名称='折扣', 最小值=0.0, 最大值=1.0), 观察=BoundedArraySpec(shape=(3, 3), dtype= dtype('int32'), name='TicTacToe 棋盘状态规格', 最小值=-1, 最大值=1))

您的观察结果与规格不符，您需要通过dtype=np.int32到 np 数组以确保类型匹配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflowagents

py_environment“time_step”与“time_step_spec”不匹配的相关文章

如何从 DSpace 反馈页面的修改版本中获取引用页面（项目）的标题？

如何从反馈页面的修改版本中获取项目的标题就像 jspui 中的推荐此项目一样我希望也能生成页面的结果网址如下所示http example com feedback handle 123456789 123 http example
在pygame中打印用户的输入

我几乎已经完成了我正在为学校项目制作的一款游戏但现在我在游戏的一小部分上遇到了困难我能够获取用户的姓名并使用它来将其写入排行榜 csv 文件但我想要这样做以便无论用户键入什么游戏都会将用户的输入打印到屏幕上就像您键入时一样在搜索
如何在Python中计算NTLM哈希值？

如何在 python 中计算密码的 NTLM 哈希值有任何库或示例代码吗我想要它用 python 编写 NTLM 强力工具如 Cain 和 Abel 它的使用其实非常简单hashlib here http docs python or
如何从 Sass 样式表中仅导入变量和 mixin？

我正在使用 Zurb Foundation 4 S CSS 框架并且遇到了大量重复样式的问题这是因为在每个文件中我 import foundation 中 Foundation 中的所有样式也会导入规则body row button和
Visual Studio 2012 - 从解决方案资源管理器中隐藏文件夹？

是否可以在 Visual Studio 2012 解决方案资源管理器窗口中隐藏文件夹我有多个不打算使用的文件夹文件它们只是让界面变得混乱而且很难找到东西您可以切换显示隐藏文件但实际上无法隐藏任何文件这似乎很不合逻辑 Exam
Plone - 在页面中何处存储图像和文件附件的最佳实践？

我们正在使用 Plone 4 1 3 构建一个 Intranet 网站并想知道是否有 Plone 最佳实践来存储附加到页面的文件和图像我们的内联网更像是一个协作站点用户可以在其中发布新闻项目和其他文章因此用户将插入图像使用 Ti
Taskkill /f 不会终止进程

当我从 VS 启动 VS 的实验实例进行调试并停止调试有时直接从父 VS 时 zombile devenv exe 进程仍在运行我无法杀死它它保留了我的许多 dll 当我以管理员身份登录到这台 64 位 Win7 机器时我希望能够终
防止点击文件输入的标签打开文件浏览器

我有一个用户可以上传图像的表单我正在使用
关于python中的struct.unpack()

级别初级我目前正在使用原始套接字使用 python 来开发嗅探器我有一个关于 struct 模块提供的 unpack 中使用的格式说明符的一般性问题当我们使用此方法根据指定的格式说明符解包数据时我见过很多嗅探器程序使用 unpac
亚马逊产品 API - 寻找基本概述和信息

最近使用 ebay API 后我本以为从亚马逊请求信息会如此简单但事实似乎并非如此似乎没有一个很好的网页来解释基础知识首先该服务叫什么我认为旧名称已被放弃缩写词 AWS 随处可见但这不是一个涵盖他们的云计算和其他 20 种服
列出所有 Google 地图标记图像 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案您是否经常使用谷歌的图像标记或将其复制到您的服务器我在哪里可以从谷歌获取可用标记的所有图像列表图像列表例如 var pinIcon
php 可以查询之前查询的结果吗？

在某些语言例如 ColdFusion 中您可以对先前查询的结果集运行查询是否可以在 php 中做类似的事情以 MySQL 作为数据库我有点想做 rs1 do query SELECT FROM animals WHERE type
如何强制网站 DNS 刷新？

我正在将我的 Web 应用程序移动到另一台服务器并在接下来的几天内刷新 DNS 以指向新的 IP 位置不幸的是一些浏览器和 SO 保留了 DNS 缓存这将使用户指向旧的 IP 位置有些用户是新手他们不会手动刷新 DNS 缓存我
如何将“手动创建”资源添加到cloudformation模板

我最初在 AWS 中手动创建了所有资源现在我尝试使用 CloudFormation SAM 模板来创建所有新资源有什么方法可以将我所有的旧手动创建资源转移到这个 CF 模板中然后使用这个 CF 来修改那些旧资源现在可以通过 A
Python PyAutoGUI 返回“ImageNotFoundException”，但“ except”不将其识别为异常

在以前版本的 pyautogui 中当找不到图像时返回值为 None 所以我曾经用以下方式处理它except TypeError 但自从更新版本 0 9 41 以来它不起作用因为它返回 ImageNotFoundException
如何将浮点数限制为略低于限制？

功能类似于numpy random uniform http docs scipy org doc numpy reference generated numpy random uniform html返回两个边界之间的浮点值包括第一个边
无法将参数 1 从 'v8::Local' 转换为 'const v8::String::Utf8Value

我正在尝试运行以下两个命令 npm install npm audit fix 在VS Code中报如下错误时 error C2664 v8 String Utf8Value Utf8Value const v8 String Utf8Va
Tomcat 上的 JAX-WS Web 服务，无需 sun-jaxws.xml

我试图在 Tomcat 上部署基于 JAX WS 的 Web 服务时尽量减少所需的配置随着Servlet 3 0的引入 Tomcat 7 支持 web xml可以扔掉但还是有sun jaxws xml This 博客文章 https w
“有选择地”与git合并

我想要一个 git 存储库其中有一个用于开发的分支和一个用于部署的分支我有我的项目需要的几个配置和数据库文件我希望部署分支不要为我的项目提供任何配置或数据库文件但我希望将这些文件的版本保留在我的开发分支中以便能够进行测试当将开发分

随机推荐

在堆栈中使用“push”和“pop”

我有一个作业要求我用随机变量填充堆栈并按 FILO 顺序将它们弹出虽然我设法让它填满堆栈但它似乎弹出了最后一个元素而没有弹出任何其他元素我不知道为什么任何帮助将不胜感激 include
用于多摄像机录制和流媒体设置的软件和/或硬件解决方案

简而言之我需要一种方法来流式传输或以其他方式播放电影以及 3 到 4 个其他显示角度并且用户能够更改他们正在观看的流式传输最终结果应该是一个带有其他角度链接按钮的视频播放器允许用户根据需要切换摄像机流角度这是一个例子您
在结构体中的 TR1 unordered_map 中定义哈希函数

根据this https mikecvet wordpress com 2011 01 28 customizing tr1 unordered map hashing and equality functions 可以在 TR1 unor
dplyr 管道数据 - `.` 和 `.x` 之间的差异

df1 lt data frame c Part Number 1 Part Number 2 Part Number 3 Julie c Measurement 1 33 34 33 Julie c Measurement 2 32 31
如果已经有类了，为什么我应该使用接口作为 Angular 中的数据类型？

我最近看了我老师的教程他向我们展示了这段代码并且他还说products数组类型为any 没有使用强类型的好处这是 TypeScript 的功能所以它应该被定义为 INTERFACE 但我现在想知道为什么他没有创建一个类而 prod
优缺点：Hibernate 与 EJB 3

Hibernate 和 EJB3 相对而言有何优缺点 I found this https stackoverflow com questions 683660 ejb vs hibernate帖子但它并没有真正解决我的问题如果我对这两
如何使用C#语言向数据库插入记录？

我只是 C 的初学者所以我需要太多帮助现在的问题是我设计了一个 Windows 表单其中有很多字段如名字姓氏地址等现在我想做的是当我填写表单并单击插入按钮时所有信息都会进入数据库有谁知道这是怎么做到的吗 private
如何将 mysqli_stmt_bind_param 用于整数、布尔值等

我正在尝试使用此方法将参数绑定到其特定类型 mysqli stmt bind param mysqli stmt stmt 字符串类型混合 var1 混合我知道第二个参数是一个类型的字符串其中 s is for strings d i
背景不适用于 div，因为它应该

我的路径有一个奇怪的问题这个可以工作在 Windows 上 div style background none div folder1 image gif 尽管如此此页面的说法完全相反不是第一个版本而是第二个版本应该有效背景不适
如何在 Python 中将一个字符串附加到另一个字符串？

如何有效地将一个字符串附加到另一个字符串有没有更快的替代方案 var1 foo var2 bar var3 var1 var2 For handling multiple strings in a list see How to conc
简化 semver 版本比较逻辑

有标准的 npm semver 版本比较库但我在这里有一些简单的逻辑来比较 semver 版本 const versionA 14 8 3 const versionB 15 1 1 const versionC 15 1 2 const
为什么我的 iPhone 应用程序应该使用 Core Data？

我正在开发我的第二个 iPhone 应用程序对 Core Data 很好奇这个项目的时间是有限的我的总体时间也是有限的我是唯一的开发人员我感觉核心数据会很有用但我无法清楚地解释为什么请原谅以下混淆应用程序需要从中央服务器检索
facet_wrap() + ggplot2() 中每个面的独立颜色渐变

我正在努力为每个方面绘制渐变色标facet wrap 独立数据太大无法在这里发布但这是我的代码 ggplot stack aes hour day geom tile aes fill percent colour white fac
如何使用 HTML Agility Pack 修复格式错误的 HTML？

我的 HTML 格式不正确标签重叠 p word1 b word2 b p p word3word4 p 重叠也可以嵌套如何使用 HTML Agility Pack HAP 将其转换为格式良好的 HTML 我正在寻找这个输出 p wor
echo $_GET["jsoncallback"] 时出错

当我回显结果时它是错误的如何修复它由于您没有准确地写出您想要执行的操作因此我猜测您正在尝试返回 JS 回调函数将放置在文档中的 HTML 选项列表尝试这个
使用 gnuplot 用数据文件制作电影

我确实有很多数据文件他们看着像是 1 数据 2 数据 1000 dat 我想用这些文件按顺序绘制它们来制作一部电影请问有人有什么想法吗如果您能帮助我我将非常高兴 ND 这里你需要两步第一个是根据数据创建 jpeg 或 png 绘图
const_cast<> 的正确用法

作为一个常见的规则使用它通常被认为是一种不好的做法const cast lt gt 在 C 代码中因为它揭示了大多数时候设计中的缺陷虽然我完全同意这一点但我想知道使用的情况是什么const cast lt gt is ok和唯一
尝试在命令行中静默执行自解压 zip 文件

我有这些自解压 zip 文件我正在尝试在 2008 7 机器上远程解压它们但它们以 exe 的形式出现需要用户双击并选择提取位置在 WinZip 支持网站上他们说要使用 auto 标志因此命令将如下所示 C deploy exe
简单的udp代理解决方案

我正在寻找可以代理我的 udp 数据包的解决方案我有一个客户端向服务器发送 udp 数据包它们之间的连接非常糟糕导致大量数据包丢失一种解决方案是使用一个新的代理服务器它将所有数据包从客户端重定向到目标服务器新的代理服务器与这两个
py_environment“time_step”与“time_step_spec”不匹配

我通过 tf 代理创建了一个自定义 py 环境但是我无法使用 py policy action 验证环境或在其中采取步骤我对 time step specs 中排除的内容感到困惑我尝试通过 tf py environment TFPy

py_environment“time_step”与“time_step_spec”不匹配

py_environment“time_step”与“time_step_spec”不匹配 的相关文章

随机推荐

热门标签

py_environment“time_step”与“time_step_spec”不匹配的相关文章