额外函数

额外函数_强化学习奖励函数塑形简介（The reward shaping of RL）

RL背景强化学习解决定义在马尔科夫过程 Makov Decision Processing MDP 下的连续决策问题其中经典算法Q learning使用如下方程更新值策略在状态s下采取行为a后的累计回报数学期望 Cumulated

额外函数

额外函数_强化学习奖励函数塑形简介（The reward shaping of RL）