Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
TRPO算法详解
答主最近学到TRPO 这算法确实很难理解 现在记录答主现在的一点想法 留存记录 先放参考文献 方便大家学习 Reference 1 Sutton R S Barto A G Reinforcement learning An introdu
RL 强化学习
算法
机器学习
人工智能
RL中的on-policy与off-policy的一点理解
笔者在刚开始学习RL的时候 对on policy和off policy的理解也一直不是很清晰 我用q leaening和Sarsa作对比来介绍这两者的区别 Q learning伪代码 Sarsa伪代码 可以看出这两个的不同 1 q lear
RL 强化学习
机器学习
人工智能