什么是强化学习
- 强化学习关注与智能体(agent)如何与环境交互中不断学习以完成特定的目标。
- 与有监督学习相比, 不需要告诉智能体数据以及对应的标签,学习相应的模型。
而是需要智能体在环境中一次次学习(哪些数据对应哪些标签),从而学习规律知道策略。
- 强化学习是希望智能体在环境中根据当前状态,采取行动,转移到下一个状态,获得回报。不断进行这样的过程,从而学习到一个策略(状态到动作的映射,即当前状态下,采取什么样的行动,能使得我最终获得的回报最大【不仅只是当前状态的而回报,一个策略π的长期影响才是至关重要的】)
强化学习中的基本概念
两个交互对象:
- 智能体(agent):可以感知外界环境的状态(State)和反馈的奖励(Reward),并进行学习和决策.智能体的决策功能是指根据外界环境的状态来做出不同的动作(Action),而学习功能是指根据外界环境的奖励来调整策略.
- 环境:是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励。
基本要素:
- 状态(state):对环境的描述,可以是离散的或连续的。状态空间
S
S
S。
- 动作(action):是对智能体行为的描述,可以是离散的或连续的,动作空间
A
A
A。
- 策略
π
(
a
∣
s
)
\pi(a|s)
π(a∣s):智能体根据当前状态s,决定下一步做出的动作a。
- 确定性策略:
π
\pi
π是一个函数映射,
S
→
A
S→A
S→A。
- 随机性策略:
π
\pi
π是一个概率分布,
∑
a
∈
A
π
(
a
∣
s
)
=
1
\sum_{a\in A}\pi(a|s)=1
∑a∈Aπ(a∣s)=1
- 状态转移概率
p
(
s
′
∣
a
,
s
)
p(s'|a,s)
p(s′∣a,s):智能体根据当前状态
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)