为乒乓球游戏的神经网络寻找正确的参数

2023-12-19

我在 Pong 游戏中实现深度神经网络时遇到了一些麻烦，因为无论我更改哪些参数，我的网络总是发散。我玩了一个 Pong-Game，并实现了一个基于 theano/lasagne 的深度 q 学习算法，该算法基于 Google Deepmind 的著名自然论文。

我想要的是：
我不想向网络提供像素数据，而是想输入 4 个连续帧的球的 x 和 y 位置以及球拍的 y 位置。所以我总共得到了 12 个输入。
我只想奖励一轮的命中、失败和胜利。
使用此配置，网络无法收敛，我的代理无法玩游戏。相反，桨直接到达顶部或底部或重复相同的模式。所以我想尝试让代理更容易一些并添加一些信息。

我做了什么：
States:

球的 x 位置（-1 到 1）
球的 y 位置（-1 到 1）
球的归一化 x 速度
球的归一化 y 速度
桨的 y 位置（-1 到 1）

对于 4 个连续帧，我得到的总输入为 20。

Rewards:

如果球拍击中球则+10
如果特工赢得该回合，+100
-100（如果特工输掉这一轮）
-5 到 0，表示球的预测结束位置（y 位置）与球拍的当前 y 位置之间的距离
如果球的预测最终位置位于球拍的当前范围内（击球是可预见的），+20
-5 如果球位于球拍后面（不再可能击球）

使用此配置，网络仍然存在分歧。我尝试调整学习率（0.1 到 0.00001）、隐藏层节点（5 到 500）、隐藏层数量（1 到 4）、批量累加器（总和或平均值）、更新规则（rmsprop 或 Deepminds rmsprop）。
所有这些都没有带来令人满意的解决方案。损失平均值的图表大多看起来像this https://i.stack.imgur.com/XiUUK.png。您可以下载我当前的实施版本here https://Kaonashi2@bitbucket.org/Kaonashi2/py-pong3.0.git
我将非常感谢任何提示:)
高无

现在重复我在评论中的建议作为答案，以便其他人以后更容易看到此页面上的内容（首先作为评论发布，因为我不能 100% 确定这会是解决方案）：

将奖励的大小降低到（或至少接近）[0.0, 1.0] 或 [-1.0, 1.0] 区间有助于网络更快地收敛。

以这种方式改变奖励值（简单地将它们全部除以一个数字以使它们位于更小的区间内）不会改变网络理论上能够学习的内容。网络还可以通过在整个网络中找到更大的权重来简单地学习具有更大奖励的相同概念。

然而，学习这么大的权重通常需要更多的时间。造成这种情况的主要原因是权重通常被初始化为接近0的随机值，因此需要花费大量时间通过训练将这些值更改为大值。因为权重被初始化为较小的值（通常），并且它们距离最佳权重值非常远，这也意味着存在局部（not全局）最小值，直到达到最佳权重值，它可能会陷入其中。

如果奖励值较低，最佳权重值的大小也可能较低。这意味着初始化为小的随机值的权重已经更有可能接近其最佳值。这会缩短训练时间（非正式地说，旅行的“距离”会更短），并且会降低沿途陷入局部最小值的风险。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为乒乓球游戏的神经网络寻找正确的参数的相关文章

QSortFilterProxyModel + QAbstractItemModel modelIndex.internalPointer() 导致崩溃

我在 PyQt 4 8 Python 2 7 中实现了自己的 QAbstractItemModel class FriendListModel QtCore QAbstractItemModel def init self groups c
如何测试顶级窗口是否打开？

我感觉 Python 编程可能不是我的菜我创建了一个 tkinter GUI 它使用按钮回调来打开另一个窗口其他搜索说这个窗口应该是顶级窗口并且它工作得很好但是每次按下按钮时它都会打开另一个相同的窗口如据我所知窗口问题如何测
使用 Marshmallow 中的数据更新行 (SQLAlchemy)

我正在使用 Flask Flask SQLAlchemy Flask Marshmallow marshmallow sqlalchemy 尝试实现 REST api PUT 方法我还没有找到任何使用 SQLA 和 Marshmallow
OpenCV Python 删除图像中的某些对象

我正在使用带有 opencv 和 numpy 的 python 来检测天文中的星星例如这个1 https i stack imgur com AKwEJ jpg图片使用模板匹配我可以用阈值检测星星单击 2 2 https i sta
使用 Flask SQLAlchemy 进行表（模型）继承

我遵循了这个建议question https stackoverflow com questions 1337095 sqlalchemy inheritance但我仍然收到此错误 sqlalchemy exc NoForeignKeysE
使用 GeoDjango 在坐标系之间进行转换

我正在尝试将坐标信息添加到我的数据库中添加django contrib gis支持我的应用程序我正在写一个south数据迁移从数据库中获取地址并向 Google 询问坐标到目前为止我认为我最好的选择是使用geopy为了这接下来
在一张图中同时绘制两个截面强度

我有一个形状数组 512 512 看起来像行 x 列 y 密度 z 数组的数量 0 012825 0 020408 0 022976 0 015938 0 02165 0 024357 0 036332 0 031904 0 025462
使用 K 均值聚类 OpenCV 进行交通标志分割

I used K Means Clustering to perform segmentation on this traffic sign as shown below 这些是我的代码读取图像并模糊 img cv imread 000
在 C# 中实例化 python 类

我已经用 python 编写了一个类我想通过 IronPython 将其包装到 net 程序集中并在 C 应用程序中实例化我已将该类迁移到 IronPython 创建了一个库程序集并引用了它现在我如何真正获得该类的实例该类看起来
Python：如何重构循环导入

我有件事可以帮你做engine setState
如何通过 Python socket.send() 发送字符串以外的任何内容

我对 Python 编程非常陌生但出于必要我必须快速地将一些东西组合在一起我正在尝试通过 UDP 发送一些数据除了当我执行 socket send 时我必须以字符串形式输入数据之外一切都正常这是我的程序这样你就可以看到我在做
如何通过facebook-sdk python api获取用户帖子？

我使用 facebook jssdk 授权我的应用程序读取用户个人资料和用户帖子 FB login function response scope user status user likes user photos user videos
检查对象数组中的多个属性匹配

我有一个对象数组它们都是相同的对象类型并且它们有多个属性有没有办法返回一个较小的对象数组其中所有属性都与测试用例字符串匹配无论该属性类型是什么使用列表理解all http docs python org 3 library f
对于神经网络来说，拥有正态分布的数据重要吗？

因此与数据相关的标准操作之一就是对其进行归一化并将其标准化为均值为 0 标准差为 1 的正态分布数据对吧但是如果数据不是正态分布怎么办另外所需的输出也必须呈正态分布吗如果我希望我的前馈网络在两个类 1 和 1 之间进行分类
如何在 Spyder IDE 中安装 Selenium 包

我刚刚在工作中安装了 Spyder IDE 仅 Spyder 不是整个 Anaconda 并且希望使用 FireFox 自动化我的工作我的问题是如何安装 Selenium 软件包 I figured it out Here is ins
如何使用 python-gnupg 加密大型数据集而不占用所有内存？

我的磁盘上有一个非常大的文本文件假设它是 1 GB 或更多还假设该文件中的数据有 n每 120 个字符一个字符我在用python gnupg https pythonhosted org python gnupg 对此文件进行加密由
从 subprocess.Popen 获取整个输出

我通过调用 subprocess Popen 得到了一个有点奇怪的结果我怀疑这与我对 Python 的陌生有很大关系 args cscript USERPROFILE tools jslint js USERPROFILE tools j
tweepy 流到 sqlite 数据库 - 语法错误[重复]

这个问题在这里已经有答案了可能的重复 tweepy 流到 sqlite 数据库语法无效 https stackoverflow com questions 9434205 tweepy stream to sqlite database
python IDLE shell 似乎无法正确处理一些转义

例如 b 退格键打印为四元在下面的示例中显示为但是 n 换行是可以的 gt gt gt print abc bd abc d gt gt gt print abc nd abc d 我在 Vista pro python 2 7 下运行
Python 中的 C 指针算术

我正在尝试将一个简单的 C 程序转换为 Python 但由于我对 C 和 Python 都一无所知这对我来说很困难我被 C 指针困住了有一个函数采用 unsigned long int 指针并将其值添加到 while 循环中的某些变量

随机推荐

C++ 使用 ccfits 读取适合文件

那么有人能看到我在这里做错了什么吗我正在尝试阅读 fits在 C 中使用文件CCfits按照他们的例子http heasarc gsfc nasa gov fitsio CCfits html readimage html http h
Firebase 函数意外重定向到accounts.google.com [已关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我有一个简单的 Firebase 函数如下所示当通过 javascript CORS 访问时该函数的飞行前选项的请求 COR
如何在 Google App Engine 中解析 JSON？

我想将 JSON 字符串解析为 Google App Engine python 下的对象你有什么建议吗编码字符串化的东西也很好您推荐的内容是内置的还是我必须包含在我的应用程序中的库安全吗谢谢考虑使用Django 的 jso
asp.net web api - 模型绑定列表参数

在我的控制器中我有 AcceptVerbs GET POST public List
如何在响应中为我的 Dialogflow 聊天机器人创建超链接

我使用对话流创建了一个聊天机器人并在响应中添加了一个网站链接我已将机器人集成到 Telegram 中并且网站链接工作正常但在网络演示中情况并非如此当我使用 Kommunicate 将聊天机器人集成到网站上时超链接是否可以正常工
我如何知道 *.a 文件是针对哪种架构构建的？

我正在使用 mac OS 10 7 4 使用 Xcode 4 3 2 我有一个来自我的合作伙伴的 a 静态库文件我想知道它是为哪种架构而构建的是ARMv6 ARMv7 i386还是其他架构是否有任何命令或方法可以获取有关文件架构的信息
最终链接失败：包含 windows.h 时参数无效

我已经使用 CDT 设置了 MinGW 和 Eclipse 以便在 Windows 上进行 C 开发一切都很顺利直到我 include
制作 Twitter wordcloud 时运行“tolower”后出现有趣错误

尝试从 Twitter 数据创建词云但出现以下错误 Error in FUN X 72L invalid input xxx bla bla bla http t co 56Fb78aTSC in utf8towcs 运行 mytwitt
禁用输出转义不适用于 xslt 中的属性

我有以下 xml 节点
如何在 Android 中管理可运行任务队列

我有多个任务可运行即从互联网下载图像它们是当用户滚动 Android 应用程序中的列表时生成的我无法控制一次生成多少个任务 Runnable 这可能是 100 个但我只想并行执行 n 10 个任务因此我计划构建一个设计一旦生
始终隐藏虚拟键盘

实际上我有一个编辑文本当我单击编辑文本虚拟键盘弹出窗口时但我只是想即使在单击编辑文本后也始终隐藏虚拟键盘并且编辑文本应该可以使用系统键盘打印我该怎么做我的代码 EditText edtNote EditText findViewB
MS Access 触发器？

我在 MS Access 中有两个名为 Insert Record 和 Delete Record 的表两个表具有相同的字段但一个表有记录而另一个表没有记录问题我希望每当我从表 Insert Record 中删除任何记录时整个
在 Android L 上运行本机库错误：仅支持位置无关的可执行文件 (PIE)

当我在 Android L Nexus 5 上运行本机代码时出现错误错误仅支持位置无关的可执行文件 PIE 相同的代码在我的 Samsung Galaxy S3 Android 4 3 上正确执行这是我的Application mk
是否有“全包同级”CSS 选择器之类的东西？

My HTML p Doggies p p class green guys Froggies p p Cupcakes p p Piggies p 一个全包兄弟选择器正如我希望的那样当用于选择 green guys 的兄弟姐妹时将选
Firebase 和 React 的 useEffect 清理功能

我有一个问题我的 useEffect 导致以下警告无法对已卸载的组件执行 React 状态更新这是一个空操作但它表明应用程序中存在内存泄漏要修复此问题请取消 useEffect 清理函数中的所有订阅和异步任务仅当从该组件处于活
如何在 Qt 项目中包含 OpenSSL

我是 Qt 的新手我已经做了一些谷歌搜索但找不到足够详细的答案我需要在基于 qmake 的 Qt 项目中使用 OpenSSL 我如何下载安装链接它以便我可以执行包含语句并在我的代码中使用它的功能假设使用 Windows 您可以
通过引用传递 std::string 数组

我想创建一个不通过引用传递 std string 进行修改的函数 void changeStr std string str str Hello World 而是一个完整的固定大小的 std strings 数组该函数将执行完全相同的操
AngularJS - 当另一个范围内的键为 true 时更改范围值

我有一个像这样的 ng repeat li p car model p span span span X span li 基于此 scope cars scope cars model Ford check true model Honda
使用本机登录页面的登录凭据实施 Oauth2

我正在尝试实现基于 Oauth2 的 Web 服务我有 clientID clientSecret 授权端点令牌端点和回调 Url 自定义架构指向 android 本机页面当我检查其他基于 Oauth2 的 API 时它有登录 Ur
为乒乓球游戏的神经网络寻找正确的参数

我在 Pong 游戏中实现深度神经网络时遇到了一些麻烦因为无论我更改哪些参数我的网络总是发散我玩了一个 Pong Game 并实现了一个基于 theano lasagne 的深度 q 学习算法该算法基于 Google Deepmin

为乒乓球游戏的神经网络寻找正确的参数

为乒乓球游戏的神经网络寻找正确的参数 的相关文章

随机推荐

热门标签

为乒乓球游戏的神经网络寻找正确的参数的相关文章