使用强化学习训练神经网络

2024-04-02

我了解前馈神经网络的基础知识，以及如何使用反向传播算法训练它们，但我正在寻找一种可以用于通过强化学习在线训练 ANN 的算法。

例如，车杆向上摆动 http://www.google.com/search?q=cart%20pole%20swing%20up我想用人工神经网络来解决这个问题。既然如此，我不知道应该怎样做才能控制钟摆，我只知道我离理想位置有多近。我需要让人工神经网络根据奖励和惩罚来学习。因此，监督学习不是一种选择。

另一种情况是这样的蛇游戏 http://en.wikipedia.org/wiki/Snake_%28video_game%29，其中反馈被延迟，并且仅限于目标和反目标，而不是奖励。

我可以想到一些针对第一种情况的算法，例如爬山算法或遗传算法，但我猜它们都会很慢。它们也可能适用于第二种情况，但速度非常慢，而且不利于在线学习。

我的问题很简单：是否有一种简单的算法可以通过强化学习来训练人工神经网络？我主要对实时奖励情况感兴趣，但如果有基于目标情况的算法可用，那就更好了。

有一些关于该主题的研究论文：

通过不断发展的神经网络拓扑实现高效强化学习 (2002) http://nn.cs.utexas.edu/downloads/papers/stanley.gecco02_1.pdf
使用神经网络的强化学习及其在电机控制中的应用 http://www.remi-coulom.fr/Thesis/
强化学习神经网络解决自主移动机器人避障问题 http://www.ice.ci.ritsumei.ac.jp/~ruck/CLASSES/INTELISYS/NN-Q.pdf

和一些代码：

代码示例 http://www.cs.colostate.edu/~anderson/code/用于神经网络强化学习。

这些只是有关该主题的一些热门谷歌搜索结果。前几篇论文看起来相当不错，尽管我个人还没有读过它们。我认为，如果您在 Google Scholar 上快速搜索，您会找到更多有关强化学习神经网络的信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用强化学习训练神经网络的相关文章

Microsoft Graph API 调用无限期挂起

我正在尝试使用 Microsoft Graph 查询 Azure Active Directory 用户信息我可以很好地进行身份验证但是当我尝试查询用户信息时client Users我的应用程序无限期挂起没有超时没有错误只是挂起
使用和不使用 SciPy 计算 k 组合的数量

我对这个函数感到困惑combSciPy 的 http docs scipy org doc scipy 0 14 0 reference generated scipy misc comb html看起来比简单的 Python 实现要慢这
反转默认比例梯度ggplot2

我是新手我正在尝试设计热图这是我的代码 ggplot gd aes Qcountry Q6 1 Q6d order TRUE geom tile aes fill prob colour white theme minimal labs
Google 地图 v3 信息窗口在地图视口外打开

如果单击地图视口顶部附近的标记信息窗口将加载到可视区域之外并且必须拖动地图才能查看信息窗口内容理想情况下我不希望地图自动平移有没有办法以不同的方向加载信息窗口例如如果标记位于视口的顶部则以向下的方向显示信息窗口不你不能以不
Cassandra 中的数据分布

我听说过 Cassandra 及其发行版其实想知道数据在整个集群中是如何分布的现象我的意思是 Cassandra 如何决定哪些节点拥有哪些数据如果您了解 HashTable 数据结构以及 Hashtable 中如何进行哈希处理那么这
为什么 SQL Server 不推荐使用 SET ANSI_PADDING OFF？

根据 MSDN BOL 在线书籍 SET ANSI PADDING http msdn microsoft com en us library ms187403 aspx 在 Microsoft SQL Server 的未来版本中 ANSI
并行 Haskell - GHC GC 火花

我有一个正在尝试并行化的程序带有可运行代码的完整粘贴here http lpaste net 101528 我进行了分析发现大部分时间都花在findNearest这本质上是一个简单的foldr超过一个大Data Map findNear
如何对数字进行排序？ [复制]

这个问题在这里已经有答案了下面是代码 Is the sortNumber对数字进行排序的函数 a 和 b 是什么意思以及为什么存在为什么sortNumber in n sort sortNumber 没有指定任何参数a and b Ja
如何设置打开文件时默认展开？

In my vimrc我已经把set foldmethod syntax启用方法折叠等但是我不喜欢每次打开文件时都会折叠整个文件的默认设置有没有办法启用foldmethod 但是当我打开文件时文件是否展开了 set foldlevel
在实体框架中比较日期的最佳方法

我在实体框架的 where 子句中使用日期并收到以下错误这是由于以下代码 var entity dbContext MyTable Where w gt w PId 3 w CreatedOn Date mydate Date First
带有客户端证书的android webview

我尝试了几天使用嵌入在应用程序中的客户端证书的Web视图但在我看来 android sdk没有提供任何方法来做到这一点是否有回调来拦截服务器发送的质询有没有办法将 webview 与客户端证书一起使用并发出 https 请求因为我也
django：url 标签 -> 如何使用变量作为 url_name？

我有一个 django 视图它声明了一个目标变量 target name of next view to call return render request template locals 我想在我的模板中使用这个目标变量我尝试了以下
从 Bigcommerce 的浏览器内存中删除注入的分析库？

我们如何删除这个脚本注入器系统并清除内存中的函数简报最近 Bigcommerce 的不法分子以监控为幌子创建了一个分析注入器 JS 该注入器被锁定在全局变量中他们在未经任何 OP 同意的情况下将其推广到所有 50 000 家前台商
是什么让热部署成为“难题”？

在工作中我们经常遇到这样的问题永久代内存不足 http www jroller com agileanswers entry preventing java s java lang例外团队负责人认为这是 JVM 中的一个错误与代码的
当页面加载图像时，它是只加载一次，还是每次在标记中找到它时加载？

当页面加载图像时它是只加载一次还是每次在标记中找到它时加载那么 jquery 呢附加一个 img 会导致它再次重新加载吗我问这个问题是因为我有高分辨率图像但需要在标记的许多情况下使用它 img src hello jpg img
qt 如何知道按钮被点击？

我正在尝试编写一个程序用声音进行一些操作我的问题是我有 3 个播放按钮和 3 个标签我希望无论我单击播放按钮都应该播放按钮附近标签中名称的声音我有一个没有任何参数的播放插槽那么如何分别连接到每个播放按钮和每个标签呢实际上
JavaScript Uncaught ReferenceError：jQuery 未定义；未捕获的引用错误：$未定义[重复]

这个问题在这里已经有答案了这是我的小提琴http jsfiddle net 4vaxE 35 http jsfiddle net 4vaxE 35 它在我的小提琴中工作得很好但是当我将其转移到dreamweaver时它无法工作我在
在 Rx 中，如何按 id 对事件进行分组并按多个时间跨度限制每个组？

可以这么说我陷入了 Rx 热潮这个问题与我的相关here https stackoverflow com questions 19425965 rx how to group by a key a complex object and
直接或通过包含定义嵌套类

假设我正在为我的家庭存储系统建模我有很多不同类型的Container 而且我发现其中很多都有装饰品因此我为这种常见情况设置了一些辅助代码我的容器中有我的Mantlepiece and my Bookcase 我只在前者上存放装饰品而
当支持 SPDY 的浏览器收到 HTTP2 (H2) 响应时会发生什么？

我的直觉是支持 SPDY 的浏览器会将其视为 SPDY 响应然而我能找到的最多的是 H2 响应将优雅地降级到 HTTP1 1 的保证我正在考虑以面向 H2 的方式提供资产多个请求无域分片等但我确实需要支持一些非 H2 浏览器

随机推荐

Django“DecimalFields 必须定义“decimal_places”属性。”

我的模型字段之一如下 aaf 1kg all models DecimalField blank True null True 当我正常使用我的模型时一切都很好当我在一个ready hook https docs djangoproje
java中的虚方法调用是什么？

我在一些计算机科学测试中看到了下一段我希望我能在这里得到它的含义的一个很好的解释因为我用谷歌搜索了一个小时但找不到任何东西当我们说 Java 语言有虚方法调用我们的意思是在java应用程序中执行的方法是由运行时的对象类型决定的
获取console.log()显示自定义对象描述

我有一个自定义的 JS 对象来表示网格对于这个例子来说它看起来像这样 function Grid c r var layout var contentPointer 0 this getCell function c r Return
在 TVML 应用程序中更改 XMLHttpRequest 的用户代理

我正在使用 TVMLKit 开发 Apple TV 应用程序我的应用程序的 JavaScript 代码尝试使用以下命令向服务器发送 HTTP 请求XMLHttpRequest 服务器需要特定的用户代理所以我尝试了以下方法 var req
Android 视频视图中缓冲区达到 20% 后如何开始（播放）视频

我有一个视频视图可以使用来自服务器的 url 来播放视频我希望在缓冲达到 20 时播放视频所以我已经将 setOnBufferingUpdateListener 的侦听器添加到媒体播放器中如下所示 Uri video Uri par
如何为 php 安装 hiphop？

大多数开发人员都了解 Facebook 的 Hiphop for php 我想在我的脚本中使用它但不知道从哪里开始我应该与我的服务器提供商联系吗或者我需要在脚本中添加一些代码吗 HipHop 很难安装但幸运的是我刚刚经历过它您需要
相当于 Python 中 Julia 中的“with”？

Julia 有与 Python 相当的东西吗 with 也许作为一个宏这非常有用例如自动关闭打开的文件 Use a do堵塞关于 do 块的文档是here https en wikibooks org wiki Introducin
使用 VSTO 将数据加载到 Microsoft Project 时如何提高性能

背景我们有一个现有的应用程序可以将数据加载到 Microsoft Project 中以便可以由 MS Project 进行操作原始应用程序是由 VB6 编写的旧式 COM 项目加载项针对 MS Project 2003 2007
启用 SSL 刷新 URL 时出现 React-router 问题

目前我在使用 React router 的 BrowserHistory 和 nginx 代理转发请求时遇到问题我读过以下答案 React router url 在刷新或手动写入时不起作用 https stackoverflow com
Ninject：每个被拦截的类实例有一个拦截器实例？

我目前遇到一个问题尝试为每个被拦截的类实例连接一个拦截器实例我正在 InterceptorRegistrationStrategy 中创建 Advice 并设置回调以解析来自内核的拦截器它有一个注入构造函数请注意我只能在回调中实例
即使没有来自客户端的连接，选择器也会无限循环

我是 Java NIO 的新手在阅读了一些教程后我尝试自己编写一个简单的 NIO 服务器和客户端我的服务器只做了一件简单的事情就是从客户端监听并打印到控制台客户端只需连接到服务器并向其发送 3 条消息 Hello 问题是我的服务器
.NET / C# 拼写检查器

有人知道 C NET 的多语言拼写检查器吗我的意思是我有它和我找到了一些替代方案但是有人有一个很好的成功故事吗我需要在我的应用程序中添加拼写检查器我想要一个集成的库System Windows Forms TexBox 例如另外
使用 std::codecvt_xxx 将 C++ std::wstring 转换为 utf8

C 11有转换宽字符字符串的工具std wstring从到 utf8 表示 std codecvt std codecvt utf8 std codecvt utf8 utf16 etc Windows 应用程序可使用哪一个来转换常规宽字
C++ 向量大小类型

我刚刚开始学习 C 有一个关于向量的问题我正在读的书指出如果我想提取 double 类型向量的大小例如我应该这样做 vector
为什么不能在 switch 语句中声明变量？

我想了解更多关于为什么不能在 switch 语句中声明变量 https stackoverflow com questions 92396 why cant variables be declared in a switch statem
显示为“n”、“p”或“f”的小数字

我正在使用绘图来绘制一些数据小数字我看到奇怪的格式例如78 98p 576 65n 678 76f 这些F是什么没有任何地方解释这些是什么我怎样才能把它们变成带有 E 的科学记数法看到这个https plot ly python
Visual Studio 代码：缺少 X509Certificate2UI

尝试使用时出现以下错误X509Certificate2UI在 VS 代码中命名空间 System Security Cryptography X509Certificates 中不存在类型或命名空间名称 X509Certificate2U
递归的优点和缺点是什么？

关于在排序算法中使用递归而不是非递归方法或者就此而言任何算法的优点和缺点是什么大多数情况下递归速度较慢并且占用更多堆栈递归的主要优点是对于像树遍历这样的问题它使算法变得更容易或更优雅看看一些比较 link http pa
Oracle 是否存储 Number 数据类型的尾随零？

当我在表中存储数值并在 SQL Developer 中查询该表时它没有显示数字数据类型的尾随零 create table decimal test decimal field number 10 insert into decimal t
使用强化学习训练神经网络

我了解前馈神经网络的基础知识以及如何使用反向传播算法训练它们但我正在寻找一种可以用于通过强化学习在线训练 ANN 的算法例如车杆向上摆动 http www google com search q cart 20pole 20swin

使用强化学习训练神经网络

使用强化学习训练神经网络 的相关文章

随机推荐

热门标签

使用强化学习训练神经网络的相关文章