状态值函数:智能体在状态
s
s
s 处的累计回报的期望值被称为智能在在采用策略
π
\pi
π 时在状态
s
s
s 处的状态值函数。用公式表示如下:
v
π
(
s
)
=
E
[
∑
k
=
0
∞
γ
k
R
t
+
k
+
1
∣
S
t
=
s
]
v_{\pi}\left(s\right) = \mathbb{E}\left[\sum_{k=0}^{\infty}\gamma^{k}\mathcal{R}_{t+k+1}|S_{t}=s\right]
vπ(s)=E[k=0∑∞γkRt+k+1∣St=s] 不同的策略
π
\pi
π 在相同的状态
s
s
s 下对应的状态值函数是不同的,因为策略
π
\pi
π 本身会影响智能体处在某一状态是的行为,进而改变累计回报
G
\mathcal{G}
G 。
状态-行为值函数:智能体在状态
s
s
s 处执行动作
a
a
a 所获得的累计回报的期望值被定义为智能体在策略
π
\pi
π 时处在状态
s
s
s 处执行动作
a
a
a 的状态-行为值函数。用公式表示如下:
q
π
(
s
,
a
)
=
E
π
[
∑
k
=
0
∞
γ
k
R
t
+
k
+
1
∣
S
t
=
s
,
A
t
=
a
]
q_{\pi}\left(s,a\right)=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty}\gamma^{k}\mathcal{R}_{t+k+1}|S_{t}=s, A_{t}=a\right]
qπ(s,a)=Eπ[k=0∑∞γkRt+k+1∣St=s,At=a]
递推关系
智能体的状态值函数和状态行为值函数之间存在一种递推关系。下图给出四种递推关系:
v
π
(
s
)
→
q
π
(
s
,
a
)
v_{\pi}\left(s\right)\rightarrow q_{\pi}\left(s,a\right)
vπ(s)→qπ(s,a)
v
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
q
π
(
s
,
a
)
v_{\pi}\left(s\right)=\sum_{a\in A}\pi\left(a|s\right)q_{\pi}\left(s,a\right)
vπ(s)=a∈A∑π(a∣s)qπ(s,a)
v
π
(
s
)
→
v
π
(
s
′
)
v_{\pi}\left(s\right)\rightarrow v_{\pi}\left(s'\right)
vπ(s)→vπ(s′)
v
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
[
R
s
a
+
γ
∑
s
′
P
s
s
′
a
v
π
(
s
′
)
]
v_{\pi}\left(s\right)=\sum_{a\in A}\pi\left(a|s\right)\left[R_{s}^{a}+\gamma\sum_{s'}P_{ss'}^{a}v_{\pi}\left(s'\right)\right]
vπ(s)=a∈A∑π(a∣s)[Rsa+γs′∑Pss′avπ(s′)]
q
π
(
s
,
a
)
→
v
π
(
s
′
)
q_{\pi}\left(s,a\right)\rightarrow v_{\pi}\left(s'\right)
qπ(s,a)→vπ(s′)
q
π
(
s
,
a
)
=
R
s
a
+
γ
∑
s
′
P
s
s
′
a
v
π
(
s
′
)
q_{\pi}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'}P_{ss'}^{a}v_{\pi}\left(s'\right)
qπ(s,a)=Rsa+γs′∑Pss′avπ(s′)
q
π
(
s
,
a
)
→
q
π
(
s
′
,
a
′
)
q_{\pi}\left(s,a\right)\rightarrow q_{\pi}\left(s',a'\right)
qπ(s,a)→qπ(s′,a′)
q
π
(
s
,
a
)
=
R
s
a
+
γ
∑
s
′
P
s
s
′
a
[
∑
a
′
∈
A
π
(
s
′
∣
a
′
)
q
π
(
s
′
,
a
′
)
]
q_{\pi}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'}P_{ss'}^{a}\left[\sum_{a'\in A}\pi\left(s'|a'\right)q_{\pi}\left(s',a'\right)\right]
qπ(s,a)=Rsa+γs′∑Pss′a[a′∈A∑π(s′∣a′)qπ(s′,a′)]
q
(
s
1
,
a
1
)
q\left(s_{1}, a_{1}\right)
q(s1,a1)
q
(
s
1
,
a
2
)
q\left(s_{1}, a_{2}\right)
q(s1,a2)
q
(
s
1
,
⋯
)
q\left(s_{1}, \cdots\right)
q(s1,⋯)
q
(
s
1
,
a
m
)
q\left(s_{1}, a_{m}\right)
q(s1,am)
s
2
s_{2}
s2
q
(
s
2
,
a
1
)
q\left(s_{2}, a_{1}\right)
q(s2,a1)
q
(
s
2
,
a
2
)
q\left(s_{2}, a_{2}\right)
q(s2,a2)
q
(
s
2
,
⋯
)
q\left(s_{2}, \cdots\right)
q(s2,⋯)
q
(
s
2
,
a
m
)
q\left(s_{2}, a_{m}\right)
q(s2,am)
⋮
\vdots
⋮
q
(
⋯
,
a
1
)
q\left(\cdots, a_{1}\right)
q(⋯,a1)
q
(
⋯
,
a
2
)
q\left(\cdots, a_{2}\right)
q(⋯,a2)
⋱
\ddots
⋱
q
(
⋯
,
a
m
)
q\left(\cdots, a_{m}\right)
q(⋯,am)
s
n
s_{n}
sn
q
(
s
n
,
a
1
)
q\left(s_{n}, a_{1}\right)
q(sn,a1)
q
(
s
n
,
a
2
)
q\left(s_{n}, a_{2}\right)
q(sn,a2)
q
(
s
n
,
⋯
)
q\left(s_{n}, \cdots\right)
q(sn,⋯)
q
(
s
n
,
a
m
)
q\left(s_{n}, a_{m}\right)
q(sn,am)
智能体在探索时,按照下式的方式来更新Q-Table:
N
e
w
Q
(
s
,
a
)
=
Q
(
s
,
a
)
+
α
R
(
s
,
a
)
+
γ
max
a
′
∈
A
Q
(
s
′
,
a
′
)
−
Q
(
s
,
a
)
⏟
Δ
Q
(
s
,
a
)
NewQ\left(s,a\right)=Q\left(s,a\right)+\alpha\underbrace{R\left(s,a\right)+\gamma\max_{a'\in A}Q\left(s',a'\right)- Q\left(s,a\right)}_{\Delta Q\left(s,a\right)}
NewQ(s,a)=Q(s,a)+αΔQ(s,a)R(s,a)+γa′∈AmaxQ(s′,a′)−Q(s,a)