我了解前馈神经网络的基础知识,以及如何使用反向传播算法训练它们,但我正在寻找一种可以用于通过强化学习在线训练 ANN 的算法。
例如,车杆向上摆动 http://www.google.com/search?q=cart%20pole%20swing%20up我想用人工神经网络来解决这个问题。既然如此,我不知道应该怎样做才能控制钟摆,我只知道我离理想位置有多近。我需要让人工神经网络根据奖励和惩罚来学习。因此,监督学习不是一种选择。
另一种情况是这样的蛇游戏 http://en.wikipedia.org/wiki/Snake_%28video_game%29,其中反馈被延迟,并且仅限于目标和反目标,而不是奖励。
我可以想到一些针对第一种情况的算法,例如爬山算法或遗传算法,但我猜它们都会很慢。它们也可能适用于第二种情况,但速度非常慢,而且不利于在线学习。
我的问题很简单:是否有一种简单的算法可以通过强化学习来训练人工神经网络?我主要对实时奖励情况感兴趣,但如果有基于目标情况的算法可用,那就更好了。
有一些关于该主题的研究论文:
-
通过不断发展的神经网络拓扑实现高效强化学习 (2002) http://nn.cs.utexas.edu/downloads/papers/stanley.gecco02_1.pdf
- 使用神经网络的强化学习及其在电机控制中的应用 http://www.remi-coulom.fr/Thesis/
- 强化学习神经网络解决自主移动机器人避障问题 http://www.ice.ci.ritsumei.ac.jp/~ruck/CLASSES/INTELISYS/NN-Q.pdf
和一些代码:
-
代码示例 http://www.cs.colostate.edu/~anderson/code/用于神经网络强化学习。
这些只是有关该主题的一些热门谷歌搜索结果。前几篇论文看起来相当不错,尽管我个人还没有读过它们。我认为,如果您在 Google Scholar 上快速搜索,您会找到更多有关强化学习神经网络的信息。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)