在 OpenAI 健身房环境中训练时,我认为环境有时会“停止”。对于连续的许多帧,没有球可见/停止生成。
这是健身房环境的错误吗?这是 Breakout-v0 游戏的一部分吗?
我还想知道 Breakout-v0 中可能采取的行动是什么。我想通了:
0 - 不执行任何操作/保持静止?
1 - 什么都不做/站着不动?
2 - 向右施加“力”?
3 - 对左侧施加“力”?
编辑:
对于那些想知道我在说什么的人:请看这个 gif:https://i.stack.imgur.com/2F4oR.jpg https://i.stack.imgur.com/2F4oR.jpg5 条生命和 4 条生命之间的过渡需要很多帧......有时休息甚至比这更长......
这是因为在生命周期结束后,您的代理需要按下启动按钮才能让游戏重新开始玩。如果它不学会这样做,那么游戏将无法进行,并且看起来像你所说的那样暂停。
我相信我头脑中的行动是:
0:无操作
1:火灾
2:右
还剩3个
方向可能相反
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)