使用深度Q网络(Deep Q Network)学习控制倒立摆

2023-05-16

使用深度Q网络(Deep Q Network)学习控制单摆

原文：https://qiita.com/ashitani/items/bb393e24c20e83e54577
摘要： 我们将尝试使用Deep Q网络（通常称为DQN）来解决单摆向上的问题，该网络结合了Q学习（一种强化学习方法）和深度神经网络。{我完全不会日语，很多表达可能跟原文完全不一样。}
关键词： python，机器学习，深度学习，强化学习，chainer

问题描述

这次设置了“单摆向上问题”。首先，空气中有一个固定的电机，杆的一端连接到电机轴上。杆的中心质量集中并且是刚性的。它是一种普通的棍子，直径为0。最初，杆根据重力向下摆。目标是将摆从这种状态向上摆动并使其静止在倒置状态。在经典的控制工程中，您必须使用包含非线性元素的控制器在两个分别设计用于摆动和静止的控制器之间切换。不，我从来没有做过，但似乎是。
在这种情况下，电机只能以恒定的扭矩向右或向左旋转。另外，虽然有点烦人，但电机的扭矩不是很大，即使您从初始状态持续向一个方向旋转，也无法克服重力向上摆动。下面是陷入这个陷阱的动画。它处于一直向右施加扭矩的状态，但越是水平，重力加速度对角加速度的作用就越大，因此它被推回并摆动。

这篇很棒的文章详细介绍了 DQN 本身，因此我将主要解释结果和实现的独创性。

让我们从结果开始

智能体（在这种情况下是电机的控制器）对环境（电机和杆）采取动作（指示电机的旋转方向），并在获得奖励并获得一些观察结果的条件下学习最优策略。
奖励 r r r 是从电机上看到的杆尖的高度 h h h 的函数
r ( h ) = { 5 h , h ≥ 0 h , h < 0 r(h)=\begin{cases} 5h,h\ge 0 \\ h,h<0 \end{cases} r(h)={5h,h≥0h,h<0
我偏向于积极的一面，但这可能是额外的小心。为了观察，在ATARI示例中，直接输入屏幕的图像，但这次我输入了摆的角度本身。假设仿真的四个参数的数组序列可以作为一个数组得到。
下面是曲线图。横轴是实验次数，纵轴是实验中获得的总分。蓝点是每一代的结果，红线是最高分。

也许是因为非线性和多模态系统，结果非常不稳定，即使在收敛后也摆动着正负结果，但高分结果却在稳步增长。让我们来看看下面的增长过程。
第一次，你被困住了。

在第120次，我意识到如果我来回走动，我可以摆动起来，但在那之后我无法阻止它。

第6950次，他似乎已经掌握了摆动后站着不动的窍门。快到了！祝你好运！

第7640次，我们几乎实现了目标。

这是 30000 次迭代中的最佳结果。这有点过分了，但它似乎已经意识到，在尽可能短的时间内进行第一次挥杆更有利。

我有点惊讶它比我预期的要好。对于最后一个示例，绘制了电机的高度曲线和控制输入随时间的变化。摆动向上的动作和直觉完全不同，但你可以看到它们正在学习。

关于DQN的实现

我之前提到的 DQN 博客也展示了实现，但这次我尝试重新造轮子来理解。我把我根据这篇论文(Playing Atari with Deep Reinforcement Learning) 实现的内容放在 https://github.com/ashitani/DQN_pendulum。仅仅通过阅读论文，我并没有完全理解如何构建和更新基本的深度网络。我会解释一下。
深度Q网络是一个神经网络，当您输入一系列状态观察结果时，它输出每个动作值。在这种情况下，动作值是一个向量，指示“在输入角度序列指示的情况下将电机左右转动有多少奖励”。
当然在学习初期，这个网络是随机的，所以会返回荒谬的结果。从现在开始按照说明的顺序更新的话，将来会训练为能得到很多总奖励的好网络。
假设对状态 s t s_t st 执行某个动作 a t a_t at 以获得报酬 r t r_t rt，并将其更改为 s t + 1 s_{t+1} st+1。此时，在输入 s t s_t st 时的 Q Q Q 输出的动作价值向量 Q ( s t ) Q(s_t) Q(st) 中，只按照下面的式子改写了相当于 a t a_t at 的动作价值，记作 y t y_t yt（符号与原始论文相比已更改很多）
y t = Q ( s t ) y t [ a t ] ← r t + γ max ⁡ Q ( s t + 1 ) y_t=Q(s_t) \\ y_t[a_t]\leftarrow r_t+\gamma\max Q(s_{t+1}) yt=Q(st)yt[at]←rt+γmaxQ(st+1)
为了让 Q ( s t ) Q(s_t) Q(st) 接近这个 y t y_t yt，一步更新网络的权重。这次的奖励和下一步得到的最优动作价值要加上一定的折扣率 γ \gamma γ。加上 batch size 之前的动作价值的和，决定这次动作的价值是理想的，但是在运算时间上也有困难，所以只进行下一步。如果重复无限次此更新过程，您将从状态中获得基于总报酬的行为价值。真的吗？至少我是这么理解的，就这么表达吧。
深度网络本身的组成并没有太多的试错，但我认为把它加深没有错。包含 Dropout 和 Batch Normalization 以提高泛化性能真的更好吗？我认为这取决于不同的问题。

最佳经验回放

这个实现基本上是按照论文的，但是我只设计了一点，所以我会解释它。
最好使用一组用于学习的“状态、动作和奖励”，这些状态、动作和奖励彼此不相关。因此，一种称为ER（经验回放）的方法很重要。这听起来像是DQN最大的观点之一。这是一种记住过去的经验并从前一组随机学习的方法。
一次审判被称为一集，但在原始论文中，所有情节都被完整地记住了。为了获得新的经验，在每一集中我将用一种叫做 ε-greedy 的方法尝试很多事情。恒定概率ε可以选择随机操作和净跟随操作（贪婪操作）ε-greedy。在学习的早期ε您将仅从大型的，主要是随机的行为中学习。
在学习足够先进之后，你只能通过贪婪的运动来产生结果。出于这个原因，我有时会尝试运行一个完全贪婪的操作，看看它是如何进行的。
我一直在DQN论文中对此感到疑惑，但是当我尝试时，它仍然是真实的，尤其是在早期，有越来越多的情节显然不值得记住，为数不多的美好经历从记忆中消失了。毕竟，这完全是随机的。当然，我们可以从失败中学到一些东西，但我认为无论如何最好使用良好的经验作为模型。所以这一次，ε- 我决定不区分贪婪的情节和贪婪的情节，并优先考虑获得好成绩（终身奖励）的情节，以将其保留在我的记忆中。我们将保留有史以来最好的 100 集，只有属于排名的剧集才会被记住。但是，即使您没有将其列入排名，您也有1%的机会记住它。
让我们称此方法为最佳ER。从使用相同的种子值初始化的状态中，我绘制了最佳ER和简单ER之间的收敛状态差异。

它似乎非常有效。由于计算机资源的原因，我没有在各种情况下尝试过。
我尝试了一种暂时没有融入任何新经验的方法，但在收敛之后，我发现它会在黄金时代过一段时间后褪色。它看起来像这样：

当我更改随机数的种子时，也发生了同样的事情。我没有很好地调查原因，但我想它发生在成长的贪婪情节的高分表现填满排名之后，所以我认为这是因为数据过于相关或失去多样性。但是，改进版似乎还没有达到黄金时代，所以我认为还有改进的空间。
另外，我认为最佳ER可能会过于沉迷于小成功并上瘾。此外，我们无法充分应对环境的变化。因为我们陷入了过去的荣耀中。这有点像我之前提到的黄金时代，我很想把它与我的人生理论重叠，但这取决于任务。
这可能是DQN的一种趋势，但很难知道学习是否在进步，因此保存看起来不错的候选人至关重要。此外，与多模态函数的数值优化一样，我的印象是产生结果的时间在很大程度上取决于初始值。但是，在多次尝试这种情况后，您几乎可以在 15000 次迭代左右达到最高分。在我的PC上花了大约2个小时（MacBook Pro Core i5 2.1GHz x2Core）。

总结

我能够尝试DQN，我一直想尝试。我还提出了一种称为最佳ER的方法，作为加速收敛的一种方式。最好自己实现，加深理解。
令人惊讶的是，控制器端的任何调谐或开关都无法产生这样的结果。我想做各种各样的事情，例如使电机控制量连续，双摆，用图像而不是角度观察，以及使用实际的机器和网络摄像头进行观察，但由于时间限制，我将在这里停止。
这次我用CPU做了，但毕竟在这个领域试错是有限制的。我很期待最近宣布的云机器学习。我可以听到有人悄悄地告诉我要买一个 GPU…

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)