RL 强化学习

TRPO算法详解

答主最近学到TRPO 这算法确实很难理解现在记录答主现在的一点想法留存记录先放参考文献方便大家学习 Reference 1 Sutton R S Barto A G Reinforcement learning An introdu

RL 强化学习 算法 机器学习 人工智能
RL中的on-policy与off-policy的一点理解

笔者在刚开始学习RL的时候对on policy和off policy的理解也一直不是很清晰我用q leaening和Sarsa作对比来介绍这两者的区别 Q learning伪代码 Sarsa伪代码可以看出这两个的不同 1 q lear

RL 强化学习 机器学习 人工智能

TRPO算法详解