Q-learning 和价值迭代有什么区别？

2024-04-29

Q-learning 与强化学习中的值迭代有何不同？

我知道 Q-learning 是无模型的，训练样本是过渡(s, a, s', r)。但是，既然我们知道 Q 学习中的转换和每个转换的奖励，那么它与基于模型的学习不一样吗？在基于模型的学习中，我们知道状态和动作对的奖励，以及状态中每个动作的转换（即它是随机的还是确定性的）？我不明白其中的区别。

你说得100%正确，如果我们知道Q学习中每次转换的转换概率和奖励，那么我们就不清楚为什么我们要使用它而不是基于模型的学习，或者它会有什么根本不同。毕竟，转移概率和奖励是价值迭代中使用的模型的两个组成部分 - 如果你拥有它们，你就拥有了一个模型。

关键是，在 Q-learning 中，智能体不知道状态转换概率或奖励。当智能体这样做并收到奖励时，它才会发现通过给定的动作从一种状态转到另一种状态会得到奖励。类似地，它只是通过结束在给定状态并查看其选项来找出从给定状态可以进行哪些转换。如果状态转换是随机的，它通过观察不同转换发生的频率来了解状态之间转换的概率。

这里可能造成混乱的原因是，作为程序员，您可能确切地知道奖励和状态转换是如何设置的。事实上，当您第一次设计系统时，您很可能会这样做，因为这对于调试和验证您的方法是否有效非常重要。但你永远不会告诉代理任何这些 - 相反，你强迫它通过反复试验自行学习。如果您想要创建一个能够进入您没有任何先验知识并弄清楚该怎么做的新情况的代理，这一点很重要。或者，如果你不关心代理的自主学习能力，如果状态空间太大而无法重复枚举，Q 学习也可能是必要的。让代理在没有任何起始知识的情况下进行探索可以在计算上更容易处理。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Q-learning 和价值迭代有什么区别？的相关文章

WEKA 的重采样过滤器 - 如何解释结果

我目前正在努力解决机器学习问题而我必须处理大量不平衡的数据集也就是说有六个类 1 2 6 不幸的是有例如对于 1 类有 150 个示例实例对于 2 有 90 个实例对于 3 类只有 20 个实例所有其他类都无法训练因为
如果我使用不同数量的核心，XGBoost 会产生相同的结果吗？

我在两台机器上安装了完全相同版本的 XGBoost 0 4 两台机器之间的唯一区别是 RAM 和内核数量 8 与 16 使用完全相同的数据我无法重现相同的结果它们略有不同小数点后第四第五位种子保留为默认值它是高度特定于实现的但
检查输入时出错：预期 conv2d_1_input 有 4 个维度，但得到形状为 (800, 1000) 的数组

我正在尝试使用 CNN 进行情感分析我的代码我的数据具有 1000 1000 形状当我将数据传递给 convolution2D 时它会抛出一个错误我无法解决我尝试了以下解决方案但仍然面临问题在构建 CNN 时我收到 Kera
朴素分类器 matlab

在 matlab 中测试朴素分类器时即使我在相同的样本数据上进行训练和测试我也会得到不同的结果我想知道我的代码是否正确是否有人可以帮助解释这是为什么 dimensionality reduction columns 6 U S V
Tensorflow：np数组的next_batch函数

我的火车数据为 xTrain numpy asarray 100 1 5 6 yTrain numpy asarray 200 2 10 12 如何定义 next batch size 方法以从训练数据中获取随机元素的 size 个数您可
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
Google Cloud ML：输出的外部尺寸必须未知

我们在本地得到了一个工作的导出模型正在创建一个新的模型版本谷歌云机器学习如下 Create Version failed Model validation failed Outer dimension for outputs must b
如何制作 U 矩阵？

为了可视化一个 U 矩阵到底是如何构建的自组织映射 http en wikipedia org wiki Self organizing map 更具体地说假设我有一个 3x3 节点的输出网格已经经过训练我如何从中构造一个 U 矩阵
Scikit-learn 具有使用“特征”的自定义评分函数

我正在尝试使用一种名为 SERA 平方误差相关区域的新指标作为本文中提到的不平衡回归的自定义评分函数 https link springer com article 10 1007 s10994 020 05900 9 https lin
在 TensorFlow 中将多个字节读取到单个值中

我尝试以 TensorFlow 中 cifar10 示例中描述的类似方式读取标签 label bytes 2 it was 1 in the original version result key value reader read fil
是否有可能在每个训练步骤中获得目标函数值？

在通常的 TensorFlow 训练循环中例如 train op tf train AdamOptimizer minimize cross entropy with tf Session as sess for i in range n
R 中 svm 特征选择的示例

我正在尝试使用 R 包在 SVM 中应用特征选择例如递归特征选择我已经安装了 Weka 它支持 LibSVM 中的特征选择但我还没有找到任何 SVM 语法的示例或类似的东西一个简短的例子会有很大的帮助功能rfe in the ca
人体的宽度和高度

如何识别图像中人体的高度和宽度你需要一些参考点除非您知道相机设置位置变焦镜头畸变等以及人相对于相机的位置否则简单的照片是不够的如果您确实有参考例如背景中的网格或其他东西那么您可以测量网格并从那里开始听起来不像你需要的
Tensorflow 的 LSTM 输入

I m trying to create an LSTM network in Tensorflow and I m lost in terminology basics I have n time series examples so X
支持向量机或人工神经网络进行文本处理？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案对于某些文本处理项目我们需要在支持向量机和快速人工神经网络之间做出选择它包括上下文拼写纠正然后将文本标记为某些短语及其同义词哪种方
如何反转 dropout 来补偿 dropout 的影响并保持期望值不变？

我正在学习神经网络中的正则化deeplearning ai课程在dropout正则化中教授说如果应用dropout 计算出的激活值将比不应用dropout时测试时更小因此我们需要扩展激活以使测试阶段更简单我理解这个事实但我
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
Java 的支持向量机？

我想用Java编写一个智能监视器它可以随时发出警报detects即将到来的性能问题我的 Java 应用程序正在以结构化格式将数据写入日志文件
ValueError：没有为“dense_input”提供数据

我正在使用以下简单的代码使用tensorflow加载csv并使用keras执行建模无法弄清楚这个错误 import tensorflow as tf train dataset fp tf keras utils get file fna
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1

随机推荐

Swift：ViewModel 应该是结构体还是类？

我正在尝试在我的新项目中使用 MVVM 模式第一次我创建了所有的视图模型来构建但是当我使用闭包实现异步业务逻辑例如 fetchDataFromNetwork 时闭包捕获旧视图模型值然后更新为该值不是新的视图模型值这是操场上
将订单总重量添加到 WooCommerce 新订单电子邮件通知

是否可以在 WooCommerce 新订单电子邮件通知针对管理员中显示订单的总重量这是挂钩在 woocommerce email after order table 操作挂钩中的自定义函数它将在新订单电子邮件通知中显示总重量
使用 Java 重新启动 Tomcat

我需要从 Java 代码重新启动 tomcat 例如如果某个查询在一段时间内没有执行那么它将自动重新启动 tomcat 我已经尝试了以下关闭和启动代码但是当我们关闭tomcat时 java代码将不会运行并且tomcat不会启动注意
在 python matplotlib 中格式化损坏的 y 轴

我正在 matplotlib 中处理一个相当复杂的条形图它包含来自多个源的摘要数据每个源都沿 x 轴标记 y 轴上有一系列结果许多结果都是异常值我尝试使用断开的 y 轴来显示这些结果而不会使用以下组合来扭曲整个图表这个方法 h
使用 Javascript OAuth 2.0 SDK 更新签名请求

随着新的 Javascript SDK 和 OAuth 2 0 的发布我想知道是否可以在不重定向用户的情况下更新 SignedRequest 和 authtoken 因此我使用了以下方法基本上这是我的应用程序的一种保持活动状态的方法
jquery 是否有 .toggle() 的替代方案[重复]

这个问题在这里已经有答案了目前根据 Jquerysite http api jquery com category deprecated deprecated 1 8 toggle 在 1 8 版本后已被弃用那么有没有 toggle 的
Windows 消息

我需要发送带有自定义 ID 的自定义 Windows 消息其他应用程序将侦听该消息 Windows 是否为内部消息保留任何预定义的消息 ID 范围如 SQL Server 那样内部消息最多为 50 000 The 文档 https m
Mysql：磁盘已满错误

我的 mysql 服务器有一些问题 120310 6 55 36 ERROR usr libexec mysqld Disk is full writing virtual cdrs MYD Errcode 28 Waiting for s
Git 责备文件中的作者列表

有没有办法找到在 repo 中编辑 java 文件中的类的作者列表git blame 作者列表必须是唯一的我尝试使用以下命令但它没有删除重复项并且每行输出中都有作者一词不需要对输出进行排序但我希望获得没有任何重复的输出 git
std::vector 错误 C2582：“operator =”函数在以下位置不可用

我使用简单的向量push back到类型A的对象并收到此错误这是我的代码 class A public A int a int b int c include A h std vector a vec objects new std v
数据映射器和连接池逻辑

所以我尝试在 Rails 3 2 8 应用程序中使用 datamapper 我有一个config initializers dm rb我加载的地方database yml hash YAML load File new database y
fgets 和 fread 之间的区别

我有以下代码 include
iOS - 支持 iPad 和 iPhone，无需使用笔尖

我正在尝试编写一个应用程序而不使用nib 一切我都会以编程方式完成现在的问题是我该如何支持两者iPad and iPhone 显然我不能这样做 if UIDevice currentDevice userInterfaceIdiom
是否有一种仅使用极坐标来查找附近点的算法？

假设我有一个点向量作为极坐标假设其中一个点充当探针我想找到一定距离内的所有其他点是否有一种算法可以在不将它们转换为笛卡尔形式的情况下执行此操作您正在寻找极坐标的距离你可以在这里找到公式link http math ucsd edu
webpack-dev-server 中的代理 websockets 连接

是否可以在 webpack 开发服务器中代理 websocket 连接我知道如何将常规 HTTP 请求代理到另一个后端但它不适用于 websockets 大概是因为代理配置中的目标以 http 开头 webpack dev server
如何使用 php 将文本区域中的链接转换为链接元素？

我正在创建一个脚本它包含一个发布脚本但我希望用户直接从其他任何地方复制链接当他们发布链接文本时链接文本应自动将链接转换为链接元素 a 例如 Ask this on http stackoverflow com now 成为 Ask
iOS 6 UITabBarController 支持当前 UINavigationcontroller 的方向

我有一个 iPhone 应用程序正在更新到 iOS 6 但存在旋转问题我有一个UITabBarController与 16UINavigationCotrollers 大多数子视图可以纵向或横向工作但其中一些只能纵向在 iOS 6 中
如何创建不带 (to) 部分的 mailto: 链接

如何正确构建没有该部分的 mailto 链接 mailto email protected cdn cgi l email protection 我不需要地址只想通过mailto填写后面的参数是的你可以 mailto body tisb
我可以替换
元素的展开图标 (▶) 吗？

我用
Q-learning 和价值迭代有什么区别？

Q learning 与强化学习中的值迭代有何不同我知道 Q learning 是无模型的训练样本是过渡 s a s r 但是既然我们知道 Q 学习中的转换和每个转换的奖励那么它与基于模型的学习不一样吗在基于模型的学习中我们知道

Q-learning 和价值迭代有什么区别？

Q-learning 和价值迭代有什么区别？ 的相关文章

随机推荐

热门标签

Q-learning 和价值迭代有什么区别？的相关文章