强化学习中的状态依赖动作集

2024-03-27

人们如何处理不同州的法律行动不同的问题？就我而言，我总共有大约 10 个诉讼，这些法律诉讼不重叠，这意味着在某些州，相同的 3 个州始终是合法的，而这些州在其他类型的州永远不合法。

我也有兴趣看看如果法律诉讼重叠，解决方案是否会有所不同。

对于 Q 学习（我的网络为我提供状态/动作对的值），我在想也许我可以在构建目标值时小心选择哪个 Q 值。（即我没有选择最大值，而是选择法律行动中的最大值......）

对于策略梯度类型的方法，我不太确定适当的设置是什么。计算损失时只屏蔽输出层可以吗？

近两年有两件密切相关的作品：

[1] 克雷格·布蒂利尔等人。 “通过随机行动集进行规划和学习。” arXiv 预印本 arXiv:1805.02363 (2018)。

[2] 昌达克、亚什等人。 “当所有行动并不总是可用时的强化学习。” AAAI。 2020.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

reinforcementlearning

QLearning

强化学习中的状态依赖动作集的相关文章

word2vec中单词的向量代表什么？

word2vec https code google com p word2vec 是 Google 的开源工具它为每个单词提供一个浮点值向量它们到底代表什么还有一篇论文关于段落向量 http cs stanford edu quoc
预测误差指标的差距是什么：MAPE 和 WMAPE？

我知道 MAPE 和 WMAPE 作为预测误差指标它们有一些好处但差距是什么有人说 For MAPE Combinations with very small or zero volumes can cause large skew
使用 train_test_split 分割数据时的精度与随后加载 csv 文件的精度不同

我建立了一个模型来预测客户是企业客户还是私人客户训练模型后我预测了 1000 个数据集的类别但我没有将其用于训练此预测将保存在 csv 文件中现在我有两种不同的行为在程序中分割样本数据当我创建示例时train sample t
使用 load_model 加载经过训练的tensorflow.keras模型会返回JSON解码错误，而未经训练的模型加载正常

我有一个训练有素的 Keras 模型使用 tensorflow keras API 构建和训练并使用tf keras save model 没有可选参数的方法 Tensorflow 是最新的我的 Python 版本是 3 8 根据我的
使用我自己的训练示例训练 spaCy 现有的 POS 标记器

我正在尝试在我自己的词典上训练现有的词性标注器而不是从头开始我不想创建一个空模型在spaCy的文档中它说加载您想要统计的模型下一步是使用add label方法将标签映射添加到标记器但是当我尝试加载英文小模型并添加标签图时
分布式张量流中的并行进程

我有带有训练参数的张量流神经网络它是代理的策略网络正在核心程序的主张量流会话的训练循环中进行更新在每个训练周期结束时我需要将该网络传递给几个并行进程工作人员这些进程将使用它来从代理策略与环境的交互中收集样本我需要并行执行因
Pytorch ValueError：优化器得到一个空参数列表

当尝试创建神经网络并使用 Pytorch 对其进行优化时我得到了 ValueError 优化器得到一个空参数列表这是代码 import torch nn as nn import torch nn functional as F fro
在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误

我试图通过对 Databricks 中的 pyspark 数据框应用余弦相似度来查找文本列标题标题的相似性我的函数称为 cosine sim udf 为了能够使用它我必须进行第一次 udf 转换将函数应用于 df 后出现查找错误
torch.stack() 和 torch.cat() 函数有什么区别？

OpenAI 的强化学习 REINFORCE 和 actor critic 示例具有以下代码加强 https github com pytorch examples blob master reinforcement learning r
Altair 中具有自定义置信区间的折线图

假设我有下面的数据框我检查了文档 https altair viz github io gallery line with ci html但它仅基于单个列可重现的代码 x np random normal 100 5 100 data
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
在 TensorFlow 中将多个字节读取到单个值中

我尝试以 TensorFlow 中 cifar10 示例中描述的类似方式读取标签 label bytes 2 it was 1 in the original version result key value reader read fil
在提供给 sklearn 管道中的分类器之前获取所选特征的名称和数量

我在用sel SelectFromModel ExtraTreesClassifier 10 threshold mean 选择我的数据集中最重要的特征然后我想将这些选定的特征提供给我的 keras 分类器但是我的基于 keras 的神
如何防止 Keras 在训练期间计算指标

我正在使用 Tensorflow Keras 2 4 1 并且有一个无监督的自定义指标它将我的几个模型输入作为参数例如 model build model returns a tf keras Model object my met
使用sklearn进行多标签特征选择

我希望使用 sklearn 对多标签数据集执行特征选择我想要获得最终的功能集across标签然后我将在另一个机器学习包中使用它我打算使用我看到的方法here https stackoverflow com questions 1640
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
如何反转 dropout 来补偿 dropout 的影响并保持期望值不变？

我正在学习神经网络中的正则化deeplearning ai课程在dropout正则化中教授说如果应用dropout 计算出的激活值将比不应用dropout时测试时更小因此我们需要扩展激活以使测试阶段更简单我理解这个事实但我
Python 上每个系数具有特定约束的多元线性回归

我目前正在数据集上运行多元线性回归起初我没有意识到我需要限制自己的体重事实上我需要有特定的正权重和负权重更准确地说我正在做一个评分系统这就是为什么我的一些变量应该对音符产生积极或消极的影响然而当运行我的模型时结果不符合我
梯度下降有哪些替代方案？

梯度下降存在局部极小值问题我们需要运行梯度下降指数次来找到全局最小值谁能告诉我梯度下降的任何替代方案及其优缺点 Thanks See 我的硕士论文 https arxiv org pdf 1707 09725 pdf page 96对于
预训练 inception v3 模型的层名称（tensorflow）[重复]

这个问题在这里已经有答案了任务是获取a的每层输出预训练的 cnn inceptionv3 https www tensorflow org versions master tutorials image recognition index

随机推荐

HTML5 音频回调在 safari/iOS 上失败

我构建了一个应用程序旨在通过使用结束事件在第一个声音完成时播放每个声音在我的初始版本中每个声音都有自己的音频元素结果如下 function play next audio speaker audio sounds i get 0
如何应用多个 DSC 配置？

这是我的例子 Config AllNodes NodeName localhost PSDscAllowPlainTextPassword True Configuration LocalAdmin Param String Node lo
Gnuplot：多个堆叠直方图，每组使用相同的键

我正在尝试创建一个具有多个堆叠直方图的图如示例 8here http gnuplot sourceforge net demo histograms html 但对于我的数据来说每组都有相同的四个类别如何更改颜色和键以便每个堆叠列的
我需要在 Cython 中使用 `nogil`

我有一些 Cython 代码我想尽快运行我需要释放 GIL 才能执行此操作吗假设我的代码与此类似 import numpy as np trivial definition just for illustration cdef dou
是否有一个 jQuery 自动完成插件可以强制选择一个项目？

There s 自动完成 http docs jquery com Plugins Autocomplete autocomplete 但它不会强制选择某个项目我需要这样的东西但它必须强制选择一个项目然后才能提交它存在吗您可以使
更改VS2017默认新项目位置

在 Visual Studio 2017 中创建新项目时是否可以更改默认路径好的我找到了操作方法从工具 gt 选项 gt 项目和解决方案 gt 位置 gt 项目位置然后在其中输入自定义文件夹老实说我更喜欢 Qt Creator
如何使用 dagger.android 将活动注入另一个类？

我正在使用新的 dagger android 方法来注入活动但我想知道如果你想注入该怎么办Activity去上课也许是一个Navigator需要当前活动的类 package com abydos messenger ui import
气流池使用的插槽大于插槽限制

有三个传感器任务并使用相同的池池 limit sensor 设置为1 但池限制不起作用三个池一起运行 sensor wait SqlSensor task id sensor wait dag dag conn id dest data
为什么npx每次都要安装webpack？

我有一个与 webpack 捆绑在一起的 JavaScript 应用程序根据文档我使用此命令开始捆绑 npx webpack 每次我得到这个输出 npx installed 1 in 2 775s 我已经验证 webpack 命令存在于
如何“填充”背景图片？ [复制]

这个问题在这里已经有答案了 I m making a website where I need to have a notable difference between fill and center background images M
如何处理由于时区偏移转换而导致的 jodatime 非法瞬间

我想设置jodaDateTime到今天凌晨 2 点请参阅下面的示例代码但我遇到了这个异常 Exception in thread main org joda time IllegalFieldValueException Value 2
Java 中使用 char 索引进行数组访问

在网上看到Java编程练习的解释时我发现了以下代码 int count new int 128 int length 0 for char c s toCharArray if count c 2 length 2 count c 0 我
在Linux上卸载

我是在 Linux 上编译和安装程序的新手我理解常见的流程是 configure make make install 我想知道如果我在某个地方犯了错误或者出了问题是否有某种方法可以回滚同意其他答案我想澄清一下如果我的理解是正确的
填充现有 numpy 数组和创建新数组之间的性能差异

在迭代算法中多次使用大型 numpy 数组是很常见的通常每次迭代时都需要手动重置数组填充现有数组使用 nan 或 0 和创建新数组之间是否存在性能差异如果是这样为什么答案取决于数组的大小虽然分配新的内存区域需要几乎固定
升级后“应用程序无法启动...配置不正确”？

我在 Windows 应用程序中有一个项目而不是在 VS2008 中现在我将其转换为VS2010 当我想运行我的项目时我收到以下消息此应用程序无法启动因为应用程序配置不正确请检查清单文件是否存在可能的错误如何运行我的应用程序
我们如何从 Spring Boot 控制器重定向到所需的 Angular 页面（路由页面） - Angular 集成在 Spring Boot 内部

I have integrated angular application inside spring boot application i e angular build files are placed inside static fo
通过 xlsx 使用条件格式将数据框导出到 Excel

我想将数据框导出到Excel并根据一定的规则突出显示单元格我不认为这个答案 https stackoverflow com questions 18511249 excel cell coloring using xlsx 1861328
使用 AtomicReference 的单例

使用 AtomicReference 的延迟初始化单例是否正确实现如果不是可能的问题是什么 import java io ObjectStreamException import java io Serializable import
Firebase UI 与 google 的身份验证失败并显示消息（代码：10 消息：10）

我制作了一个使用 Firebase 功能的聊天应用程序Real time database 我遇到谷歌身份验证问题当我从 Play 商店下载应用程序时问题就开始了当我在调试模式下运行应用程序时身份验证工作正常当用户尝试登录时他们
强化学习中的状态依赖动作集

人们如何处理不同州的法律行动不同的问题就我而言我总共有大约 10 个诉讼这些法律诉讼不重叠这意味着在某些州相同的 3 个州始终是合法的而这些州在其他类型的州永远不合法我也有兴趣看看如果法律诉讼重叠解决方案是否会有所不同对于

强化学习中的状态依赖动作集

强化学习中的状态依赖动作集 的相关文章

随机推荐

热门标签

强化学习中的状态依赖动作集的相关文章