机器学习强化学习

强化学习12——动态规划与策略迭代和值迭代

上一节我们说了马尔可夫决策过程它是对完全可观测的环境进行描述的也就是观测到的内容完整决定了决策所需要的特征马尔可夫决策过程可以用方程组求解简单问题但是对于复杂一点的问题一般通过迭代的思想对其进行求解动态规划是非常有效的求解马尔可

机器学习强化学习 动态规划