一、强化学习的定义
1.1 什么是强化学习?
首先,强化学习并不是某一种特定的算法,而是一类算法的统称。
解决序列决策问题的一类方法,通过寻求最优策略,获取最大回报。
强化学习就是智能体从环境到动作映射的学习,以使回报信号(激励信号)函数值最大。
引用下百度百科下强化学习的定义:强化学习(Reinforcement Learning, RL),又称增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。
强化学习的常见模型是标准的。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL) ,以及主动强化学习(active RL)和被动(passive RL)。
1.2 机器学习的几种方法
强化学习是和监督学习,非监督学习并列的第三种机器学习方法。
机器学习下的几种方法的对比:
- 监督学习:标签数据:需要,直接反馈,应用场景:预测输出。
- 无监督学习:标签数据:不需要,无反馈,应用场景:发掘隐藏结构。
- 强化学习:标签数据:不需要,延迟反馈,应用场景:决策过程。
强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”,而是通过自己不停的尝试来学会某些技能。也就是说,强化学习是让计算机实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。
1.3 强化学习基本思路
算法执行个体(Agent)来做决策,即选择一个合适的动作(Action)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)