Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Q-learning 和带有贪婪选择的 SARSA 等价吗?
Q learning 和 SARSA 之间的区别在于 Q learning 比较当前状态和最佳可能的下一个状态 而 SARSA 则将当前状态与实际的下一个状态进行比较 如果使用贪婪选择策略 即 100 的时间选择具有最高动作值的动作 那么
reinforcementlearning
QLearning
sarsa