Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
[TRPO] Trust Region Policy Optimization
论文链接 http proceedings mlr press v37 schulman15 引用 Schulman J Levine S Abbeel P et al Trust region policy optimization C
强化学习论文笔记
机器学习
深度学习
人工智能
强化学习