具有可变动作的强化学习

2024-04-11

All the 强化学习 http://en.wikipedia.org/wiki/Reinforcement_learning我读过的算法通常应用于具有固定数量操作的单个代理。是否有任何强化学习算法可以在考虑可变数量的动作的同时做出决策？例如，如果玩家控制 N 个士兵，并且每个士兵根据其状况有随机数量的动作，那么如何在计算机游戏中应用 RL 算法？您无法为全局决策者（即“将军”）制定固定数量的行动，因为随着士兵的创建和杀死，可用的行动会不断变化。而且您无法在士兵级别制定固定数量的行动，因为士兵的行动是基于其直接环境的条件。如果一个士兵没有看到对手，那么它可能只能行走，而如果它看到 10 个对手，那么它有 10 个新的可能动作，攻击 10 个对手中的 1 个。

你所描述的情况并没有什么异常。强化学习是一种寻找价值函数的方法马尔可夫决策过程 http://en.wikipedia.org/wiki/Markov_decision_process。在 MDP 中，每个州都有自己的一套行动。要继续进行强化学习应用，您必须清楚地定义问题中的状态、动作和奖励。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

具有可变动作的强化学习的相关文章

caret::train：为 mlpWeightDecay（RSNNS 包）指定更多非调整参数

我在使用插入符号包和 RSNNS 包中的 mlpWeightDecay 方法指定学习率时遇到问题 mlpWeightDecay 的调整参数是大小和衰减将大小保持为 4 并在 c 0 0 0001 0 001 0 002 上调整衰减的示例
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
Google Cloud ML：输出的外部尺寸必须未知

我们在本地得到了一个工作的导出模型正在创建一个新的模型版本谷歌云机器学习如下 Create Version failed Model validation failed Outer dimension for outputs must b
如何制作 U 矩阵？

为了可视化一个 U 矩阵到底是如何构建的自组织映射 http en wikipedia org wiki Self organizing map 更具体地说假设我有一个 3x3 节点的输出网格已经经过训练我如何从中构造一个 U 矩阵
Caffe，在层中设置自定义权重

I have a network In one place I want to use concat As on this picture 不幸的是该网络无法训练为了理解为什么我想连续改变权重这意味着 FC4096 中的所有值一开始都
如何计算两个字符串向量之间的余弦相似度

我有 2 个维度为 6 的向量我想要一个介于 0 和 1 之间的数字 a c HDa 2Pb 2 BxU BuQ Bve b c HCK 2Pb 2 09 F G 谁能解释我应该做什么使用lsa包和该包的手册 create some f
R 中 svm 特征选择的示例

我正在尝试使用 R 包在 SVM 中应用特征选择例如递归特征选择我已经安装了 Weka 它支持 LibSVM 中的特征选择但我还没有找到任何 SVM 语法的示例或类似的东西一个简短的例子会有很大的帮助功能rfe in the ca
如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

我开发了一个用于多标签分类的文本模型这OneVsRest分类器 http scikit learn org stable modules generated sklearn multiclass OneVsRestClassifier h
Python 上每个系数具有特定约束的多元线性回归

我目前正在数据集上运行多元线性回归起初我没有意识到我需要限制自己的体重事实上我需要有特定的正权重和负权重更准确地说我正在做一个评分系统这就是为什么我的一些变量应该对音符产生积极或消极的影响然而当运行我的模型时结果不符合我
mlflow 如何使用自定义转换器保存 sklearn 管道？

我正在尝试使用 mlflow 保存 sklearn 机器学习模型这是一个包含我定义的自定义转换器的管道并将其加载到另一个项目中我的自定义转换器继承自 BaseEstimator 和 TransformerMixin 假设我有 2 个项
选择 c 和 gamma 值

您好我正在使用 SMO 执行 SVM 分类其中我的内核是 RBF 现在我想选择c and sigma值使用网格搜索和交叉验证我是内核函数的新手请帮助一步一步的过程选择一些您认为有趣的 C 和 sigma 值例如 C 1 10
梯度下降有哪些替代方案？

梯度下降存在局部极小值问题我们需要运行梯度下降指数次来找到全局最小值谁能告诉我梯度下降的任何替代方案及其优缺点 Thanks See 我的硕士论文 https arxiv org pdf 1707 09725 pdf page 96对于
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
将姓名拆分为名字和姓氏 Java（Android OCR）[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我使用本机 Android JAVA 创建了一个 OCR 光学字符识别应用程序我可以将图像转换为文本视图但是我如何使用这些词分别识别名
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
在 Keras 中连接两个目录迭代器

假设我有类似以下内容 image data generator ImageDataGenerator rescale 1 255 train generator image data generator flow from director
使用 LightGBM 进行多类分类

我正在尝试使用 Python 中的 LightGBM 为多类分类问题 3 类建模分类器我使用了以下参数 params task train boosting type gbdt objective multiclass num clas
rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个来自 UCI 机器学习数据库的纯分类数据框https archive ics uci edu ml datasets Diabet
MultiHeadAttention Attention_mask [Keras、Tensorflow] 示例

我正在努力掩盖 MultiHeadAttention 层的输入我正在使用 Keras 文档中的 Transformer Block 进行自我关注到目前为止我在网上找不到任何示例代码如果有人能给我一个代码片段我将不胜感激变压器块来
XGBoost 产生预测结果和概率

我可能正在文档中查看它但我想知道 XGBoost 是否有办法生成结果的预测和概率就我而言我正在尝试预测多类分类器如果我能返回Medium 88 那就太好了分类器中预测概率 88 参数 params max depth 3 ob

随机推荐

如何让 HTTP 请求在 Flutter Web 中工作？

我正在尝试从我的网站链接获取数据 http mrmatjar com kaka dataaza php http mrmatjar com kaka dataaza php 这是我的代码 import dart convert impo
将文件中的非连续块映射到连续内存地址

我对使用内存映射IO的前景感兴趣最好是利用 boost interprocess 中的设施实现跨平台支持将文件中的非连续系统页面大小块映射到内存中连续的地址空间一个简化的具体场景我有许多普通旧数据结构每个结构都有固定长度
使用仅显示唯一值的 D3 对列表进行排序

我需要对 D3 上显示唯一值的列表进行排序我可以对其进行排序但它显示了它的所有出现情况该文件是 csv 我想按邮政编码列对其进行排序仅作为背景我稍后将使用此列表作为下拉菜单因此这是过滤数据的一种方法这就是我所拥有的 var
查找鼠标相对于元素的位置

我想用画布制作一个小绘画应用程序所以我需要找到鼠标在画布上的位置由于我没有找到可以复制粘贴的无 jQuery 答案因此这是我使用的解决方案 document getElementById clickme onclick functi
如何在另一个类中访问 IBOutlet？

我在这个问题中遇到了同样的错误我如何访问另一个类中的 IBOutlet 迅速 https stackoverflow com questions 35358225 how can i access iboutlet in another
用于访问 VMware vSphere PowerCLI 的 C# 代码 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有 C 代码通过 PowerCLI 或其他方式访问 vSphere API 的示例对于测试自动化
用于方形图像的 Google 自定义搜索 API

我正在寻找一种方法来指定 Google 自定义搜索 API 返回的图像具有方形格式我尝试过 tbs iar s 因为我读过使用自定义搜索 API REST JSON 搜索方形图像 https stackoverflow com quest
如何从行索引 Swift 获取索引路径

我正在加载一个数组UIcollectionview 稍后会添加其他数据我想随机选择集合视图项目 var indexpath Int arc4random uniform UInt32 items count 1 self collecti
删除非英文字符 PHP

我如何解析字符串以删除 php 中的所有非英文字符现在我想删除类似的东西谢谢 str preg replace 00 255 u str
是否可以使用 jquery 为每一行文本添加动画？

jquery 是否可以一次显示一行文本我知道它可以在闪存中完成我这里有一个例子http iliketoplay dk blog deff http iliketoplay dk blog deff 在播放视频时鼠标单击一个圆圈将打开一
使用 EF Core 继承时如何避免重复属性投影？

我正在努力解决如何在使用时避免重复投影逻辑EF Core 中的继承 https learn microsoft com en us ef core modeling inheritance 这是我的情况我有三种类型 Lesson 这是一个
可以在单个 PHP 脚本中使用多个独立的 $_SESSION 吗？

我想在单个 PHP 脚本中使用两个独立的 SESSION 我尝试使用以下代码验证这是否可行 error reporting 1 session name session one session start SESSION array SES
如何使用 Node.js 标记 Markdown？

我正在构建一个 iOS 应用程序该应用程序的视图将从 Markdown 中获取其来源我的想法是能够将 MongoDB 中存储的 markdown 解析为 JSON 对象如下所示 h1 This is the heading p Her
如何使用Qt中的QSyntaxHighlighter类在QML TextEdit上实现富文本逻辑？

我的 QML 文件中有一个 TextEdit 并且有一个 QSyntaxHighlighter C 类我想在 C 类中指定突出显示逻辑并将其应用到 TextEdit 但我不确定如何在 QML 对象和 C 类之间建立连接您还可以提供一些示
Symfony2 表单事件 PreSetData 订阅者

在我的应用程序中用户可以为某些实体创建自定义字段然后在显示表单时为每个实体对象设置此自定义字段的值实现是这样的 1 我为表单创建了一个接口并且我想要实现该接口的表单 2 我为所有表单创建了一个表单扩展 app core form b
如何在 python 中使用网址下载文件？通过浏览器下载可以，但不能通过python的请求下载

如果在浏览器 Firefox Chrome 等中输入 URL 则会下载该文件但是当我尝试使用 python 下载相同的文件使用相同的 URL 时requests or urllib图书馆我没有得到任何回应 URL https www
用例可以没有参与者吗？

我正在研究全自动系统的用例图外部系统只会触发该系统的一个用例大多数其他用例都是计划任务并由计时器调用我有一个由计时器调用的用例它包含并扩展了其他两个用例当我编写用例描述时谁将成为 UC 2 和 UC 3 的参与者用例可以在没有
无法销毁多对多关系中的记录

我是 Rails 新手所以我确信我犯了一个简单的错误我在两个模型之间建立了多对多关系 User and Group 它们通过连接模型连接GroupMember 这是我的模型删除了不相关的内容 class User lt ActiveR
WCF 和多主机标头

我的雇主网站有多个主机名它们都访问同一服务器我们只是出于品牌目的显示不同的皮肤不幸的是 WCF 在这种情况下似乎不能很好地工作我试过了使用自定义主机工厂覆盖默认主机 http www robzelt com blog 2007 01
具有可变动作的强化学习

All the 强化学习 http en wikipedia org wiki Reinforcement learning我读过的算法通常应用于具有固定数量操作的单个代理是否有任何强化学习算法可以在考虑可变数量的动作的同时做出决策例如

具有可变动作的强化学习

具有可变动作的强化学习 的相关文章

随机推荐

热门标签

具有可变动作的强化学习的相关文章