All the 强化学习 http://en.wikipedia.org/wiki/Reinforcement_learning我读过的算法通常应用于具有固定数量操作的单个代理。是否有任何强化学习算法可以在考虑可变数量的动作的同时做出决策?例如,如果玩家控制 N 个士兵,并且每个士兵根据其状况有随机数量的动作,那么如何在计算机游戏中应用 RL 算法?您无法为全局决策者(即“将军”)制定固定数量的行动,因为随着士兵的创建和杀死,可用的行动会不断变化。而且您无法在士兵级别制定固定数量的行动,因为士兵的行动是基于其直接环境的条件。如果一个士兵没有看到对手,那么它可能只能行走,而如果它看到 10 个对手,那么它有 10 个新的可能动作,攻击 10 个对手中的 1 个。
你所描述的情况并没有什么异常。强化学习是一种寻找价值函数的方法马尔可夫决策过程 http://en.wikipedia.org/wiki/Markov_decision_process。在 MDP 中,每个州都有自己的一套行动。要继续进行强化学习应用,您必须清楚地定义问题中的状态、动作和奖励。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)