在强化学习中有这么几个术语:智能体(Agent),环境(Environment),动作(Action),奖励(Reward),状态(State,有些地方称作观察,Observation)。
奖励(Reward)
在强化学习中,奖励是一个标量,它是从环境中周期性地获取的,取值可正可负,可大可小。奖励的作用是告诉智能体它做的动作到底好不好,奖励的反馈频率并没有限制,可以是在经过固定的时间步之后返回一次,也可以是在最后达到最终状态的时候返回,这种情况下,除了最后一次动作之外,其他动作对应的奖励都是0。
“强化学习”中的“强化”一词的来由是,智能体通过它获得的奖励来强化它的行为。奖励是局部的,它反映的是智能体最近的活动表现,并不是从开始到目前为止的表现。当然,某些行动能获得巨大的奖励,但并不意味着下一步仍旧能得到很好的奖励。这就像抢劫银行,如果不考虑后果,那眼前的奖励确实诱人。
智能体需要做的是,通过做一系列的动作与环境交互,使得它获得的累积奖励最大。下面用一些直观的例子来说明ÿ
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)