强化学习中的状态依赖动作集

2024-03-27

人们如何处理不同州的法律行动不同的问题?就我而言,我总共有大约 10 个诉讼,这些法律诉讼不重叠,这意味着在某些州,相同的 3 个州始终是合法的,而这些州在其他类型的州永远不合法。

我也有兴趣看看如果法律诉讼重叠,解决方案是否会有所不同。

对于 Q 学习(我的网络为我提供状态/动作对的值),我在想也许我可以在构建目标值时小心选择哪个 Q 值。 (即我没有选择最大值,而是选择法律行动中的最大值......)

对于策略梯度类型的方法,我不太确定适当的设置是什么。计算损失时只屏蔽输出层可以吗?


近两年有两件密切相关的作品:

[1] 克雷格·布蒂利尔等人。 “通过随机行动集进行规划和学习。” arXiv 预印本 arXiv:1805.02363 (2018)。

[2] 昌达克、亚什等人。 “当所有行动并不总是可用时的强化学习。” AAAI。 2020.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

强化学习中的状态依赖动作集 的相关文章

随机推荐