Q-Learning 值太高

2023-12-10

我最近尝试在 Golang 中实现基本的 Q-Learning 算法。请注意，我对强化学习和人工智能总体来说是新手，所以这个错误很可能是我的。

以下是我如何在 m,n,k 游戏环境中实施解决方案：在每个给定的时间t，代理持有最后的状态动作(s, a)以及由此获得的报酬；代理选择一个动作a'基于 Epsilon 贪婪策略并计算奖励r，然后继续更新值Q(s, a)为了时间t-1

func (agent *RLAgent) learn(reward float64) {
    var mState = marshallState(agent.prevState, agent.id)
    var oldVal = agent.values[mState]

    agent.values[mState] = oldVal + (agent.LearningRate *
        (agent.prevScore + (agent.DiscountFactor * reward) - oldVal))
}

Note:

agent.prevState在采取行动之后和环境响应之前（即在代理移动之后和其他玩家移动之前）保持先前的状态我用它来代替状态动作元组，但我不太确定是否这是正确的做法
agent.prevScore保留对先前状态动作的奖励
The reward参数表示当前步骤的状态动作的奖励（Qmax)

With agent.LearningRate = 0.2 and agent.DiscountFactor = 0.8由于状态-动作值溢出，代理无法达到 100K 集。我正在使用 golangfloat64（标准 IEEE 754-1985 双精度浮点变量）在大约溢出±1.80×10^308和产量±Infiniti。我想说这个价值太大了！

这是以学习率训练的模型的状态0.02和折扣系数0.08播放了 200 万集（其中有 100 万个游戏）：

Reinforcement learning model report
Iterations: 2000000
Learned states: 4973
Maximum value: 88781786878142287058992045692178302709335321375413536179603017129368394119653322992958428880260210391115335655910912645569618040471973513955473468092393367618971462560382976.000000
Minimum value: 0.000000

奖励函数返回：

代理获胜：1
代理丢失：-1
Draw: 0
比赛继续：0.5

但您可以看到最小值为零，最大值太高。

值得一提的是，我发现Python脚本中的一种更简单的学习方法效果非常好，而且感觉实际上更智能！我用它玩的时候，大多数时候都是平局（一不小心它就赢了），而用标准的Q-Learning方法，我根本不能让它赢！

agent.values[mState] = oldVal + (agent.LearningRate * (reward - agent.prevScore))

有想法该怎么解决这个吗？这种状态-动作值在 Q-Learning 中正常吗？！

Update:在阅读了巴勃罗的答案以及尼克对此问题提供的轻微但重要的编辑后，我意识到问题是prevScore包含上一步的 Q 值（等于oldVal) 而不是上一步的奖励（在本例中为 -1、0、0.5 或 1）。

进行此更改后，代理现在表现正常，并且在 2M 次之后，模型的状态如下：

Reinforcement learning model report
Iterations: 2000000
Learned states: 5477
Maximum value: 1.090465
Minimum value: -0.554718

在与经纪人的 5 场比赛中，我赢了 2 场（经纪人没有意识到我连续有两颗石子），平局 3 场。

奖励函数可能是问题所在。强化学习方法试图最大化预期总奖励;它在游戏中的每一步都会获得正奖励，因此最佳策略是玩得尽可能长！ q 值，定义价值函数（在某种状态下采取行动然后表现最佳的预期总回报）正在增长，因为正确的期望是无限的。为了激励获胜，你应该在每个步骤都有一个负奖励（有点像告诉代理快点获胜）。

请参阅 3.2 目标和奖励强化学习：简介更深入地了解奖励信号的目的和定义。你面临的问题实际上是书中的练习3.5。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Q-Learning 值太高的相关文章

使用 MongoDB Atlas 时 mongo-go-driver 因服务器选择超时而失败

去版本 1 12 5 我有这个使用 node js mongo 驱动程序的代码 const MongoClient require mongodb MongoClient const uri process env MONGO HOST d
如何使用golang中通过引用传递的索引访问切片中的元素

我将切片的引用传递给函数并且我正在函数内的切片中进行更改我还尝试使用索引访问切片中的元素它在 golang 中抛出异常通过引用传递的索引访问切片中的元素的最佳方法是什么您可以在此处找到示例代码参考 http www reddit
Go 中的切片分块

我有一个切片其中包含约 210 万条日志字符串我想创建一个切片切片其中字符串尽可能均匀分布这是我到目前为止所拥有的 logs is a slice with 2 1 million strings in it var divided
如何通过模板中的变量访问对象字段？

我有一个嵌套循环 columns columns range dx dataList range c columns index dx c end end dataList是orm模型数组和ID Title字段那么columns is
二进制浮点加法算法

我试图理解二进制级别的 IEEE 754 浮点加法我遵循了一些在网上找到的示例算法并且大量测试用例与经过验证的软件实现相匹配我的算法目前只处理正数但是我没有得到与此测试用例的匹配 0000100011110011011001001
整数转浮点数

这段代码的工作原理 posToXY Float gt Float gt Integer posToXY a b do let y a b round y 但这不起作用 posToXY Integer gt Integer gt Intege
Google Cloud Kubernetes 上任务队列的替代方案

我发现任务队列主要用于App Engine标准环境我正在将现有服务从 App Engine 迁移到 Kubernetes 任务队列的一个好的替代方案是什么推送队列是当前正在使用的队列我在线阅读文档并浏览了此链接何时使用 PubSub
初始化嵌套匿名结构

我有一个 json 作为 fields time id status customerId additionalDetail pageInfo start 0 rows 1000 我想将我的结构编组到上面的 json 并创建如下结构 typ
构建链代码时 ltdl.h 未找到错误

我正在尝试使用构建链码go build 当我运行 Go build 命令时它的报告 hyperledger fabric vendor github com miekg pkcs11 pkcs11 g o 29 18 fatal error
当涉及多个渠道时，select 如何工作？

我发现在多个非缓冲通道上使用 select 时例如 select case lt chana case lt chanb 即使两个通道都有数据但在处理此选择时 case chana 和 case chanb 的跟注不平衡 package
如何分析 VSCode 中函数的性能

我用 C Golang 编写了一个程序如何找到占用最高 CPU 周期的函数目的是提高正在执行的程序的性能 2021 年 10 月金香儿哈娜 https github com hyangah宣布 tweet https twitter
GAE Go — 如何对不存在的实体键使用 GetMulti？

我发现自己需要做一个GetMulti使用键数组进行操作其中某些实体存在但有些实体不存在我当前的代码如下返回错误 datastore no such entity err datastore GetMulti c keys info
for 循环初始值设定项中的结构

知道为什么 for 循环初始值设定项中的这个结构表达式在编译时会出现语法错误吗在这种情况下指向结构的指针工作正常但 ofc 我需要如下所示的局部变量感谢您的建议 type Request struct id int line byt
GoQt 致命错误：QAbstractAnimation：没有这样的文件或目录

我尝试编译 Qt 来开发桌面应用程序我按照 Qt 网站上的官方 wiki 指南的说明进行操作当我尝试go run示例文件夹中的示例我收到错误去运行 home pinkya rabbit workspace go1programs s
如何在 Go 中解组具有多个项目的简单 xml？

我想从以下 xml 中获取人物 People 的一部分
如何在运行“go test”时排除或跳过特定目录[重复]

这个问题在这里已经有答案了 go test go list grep v vendor coverprofile testCoverage txt 我正在使用上述命令来测试文件但有 1 个名为 Store 的文件夹我想从测试中排除怎样才
展平嵌套结构会导致切片的切片

所以我有一个像这样的结构 type Bus struct Number string Name string DirectStations Station Station is another struct ReverseStations
如何在 Go 中将环境变量传递给测试用例

在为 Go 编写测试用例时传递需要提供给测试的环境变量的标准方法是什么例如我们不想在测试用例的源代码中嵌入密码处理这个问题最标准的方法是什么我们让测试用例寻找配置文件吗还有别的事吗看来我偶然发现了答案将其添加到测试用例中可以
什么时候应该使用双精度而不是十进制？

我可以说出使用的三个优点double or float 代替decimal 使用更少的内存速度更快因为处理器本身支持浮点数学运算可以表示更大范围的数字但这些优点似乎只适用于计算密集型操作例如建模软件中的操作当然当需要精度时例
AXI4 流接口：如何在 HLS 中管理浮点数组以生成硬件加速器并在 RTL 项目中安全地连接它们？

最后我想做的是使用 Vivado Design Suite 中具有单精度浮点数组的流接口来构建硬件加速器 HLS 用户指南UG902 http www xilinx com support documentation sw manuals

随机推荐

model.frame.default 中的错误：变量长度不同

在使用 mgcv 包运行 gam 模型时我遇到了一条我无法理解的奇怪错误消息 model frame default formula Death pm10 Lag resid1 1 中的错误变量长度不同发现 Lag resid1 1
PictureBox 可以在 Windows 应用程序中显示动画 GIF 吗？

我想在 Net Winform 中显示动画 gif 这个怎么做我以前用过VB 6 0 Put a PictureBox在表单上然后指定带有 Gif 扩展名的图片文件或者以编程方式制作 gif 图像动画将帧加载到PictureBox
Angular UI Router 嵌套状态在子状态中解析

在我正在开发的一个角度应用程序中我希望有一个抽象的父状态它必须解决其所有子状态的某些依赖关系具体来说我希望所有需要经过身份验证的用户的状态都从某个 authroot 状态继承该依赖关系我遇到了父依赖项并不总是被重新解决的问题理想
WKWebView 在设备上显示空白，在模拟器上工作

我的应用程序的模块之一是网站该网站主要包含 SVG 绘图并带有自定义形状的按钮使用 Raphael js 库来访问其他绘图包含 svg 绘图的其他 html 页面如果设备运行在 iOS 7 上我使用 UIWebView 并且一
在httptrigger中获取Keyvault Secret并使用它来获取Function-Python输出的信息

我有以下代码用于获取秘密使用秘密登录门户并下载 csv 表这在函数之外工作正常 import pandas as pd import pandas as pd from arcgis gis import GIS from azure
将 Curl 转换为 Java 等效项

我正在与New Relic REST API我第一次有一个curl命令 curl X GET https api newrelic com v2 applications appid metrics data json H X Api Ke
什么定义了显式网格？

MDN 定义了一个显式网格下列的而显式网格由使用 grid template columns 或 grid template rows 定义的任何行和列组成所以显式网格可以有single grid template columns gr
如何在 Visual Studio 设计器中取消固定和移动表单？

在 Visual Studio 中表单粘在 IDE 工作区域的左上角就像固定在那里一样你如何取消它们它们不是固定的它们实际上是由设计师绘制在那个位置的这只是模拟图该表单实际上在设计器中的功能与在运行时的功能不同您不能以任
对于已经在进行中的 NSUrlConnection 应该如何处理 beginbackgroundtaskwithexpirationhandler: ？

如果应用程序在前台时使用 NSURLConnection 开始下载但随后应用程序在数据下载完成之前移动到后台那么应用程序应该如何使用 beginbackgroundtaskwithexpirationhandler 对于这个已经存在的连
Python 中的“命名元组”是什么？

什么是命名元组以及如何使用它们我什么时候应该使用命名元组而不是普通元组反之亦然也有名单吗即可变的命名元组 For the last question specifically see also Existence of muta
XCode：为什么我的活动没有添加到日历中？

我已将以下代码添加到我的应用程序中 NSDate selected DatePicker date NSString date selected description NSDateComponents components NSCalen
Flash 使视图变为全屏

我需要一个链接来调用 Flash 影片使用 JavaScript 该影片将视图全屏显示并显示页面内容就像用户按下了 F11 一样有这样的flash电影吗 Edit这与 YouTube 和其他视频网站上的 Flash 播放器的不同之处在
安装和导入后，colaboratory 将不会承认 arviz

在Google的合作实验室中安装了arviz然后导入arviz没有错误但在代码单元中 pm plot posterior samples 得到错误 arviz未安装尝试绘制贝叶斯代码 pm plot posterior samples
“模块是用不兼容的 Kotlin 版本编译的。其元数据的二进制版本是 1.5.1，预期版本是 1.1.16”

当我尝试构建应用程序时出现以下错误 C Users Lenovo gradle caches transforms 2 files 2 1 32f0bb3e96b47cf79ece6482359b6ad2 jetified kotlin s
python networkx - 通过着色来标记边缘以进行图形绘制

我正在使用 networkx 来研究图论实现我想知道是否有一种方法可以标记给定图中的某些边例如假设我有一个图 G 并且我找到了从节点 x 到节点 y 的最短路径我如何标记该路径以便在绘制图时它将以不同的颜色绘制标记边缘可以通过设
关闭 BufferedReader 和 System.in

Reader rdr new InputStreamReader System in BufferedReader br new BufferedReader rdr String s s br readLine br close Scan
选择可变参数模板最后一个参数的有效方法

我知道如何选择可变参数模板的第一个参数 template lt class Args gt struct select first template lt class A class Args gt struct select first
Python 中奇怪的前导字符 utf-8/utf-16 编码

我写了一个简化版本来演示这个问题我正在以 utf 8 和 UTF 16 格式对特殊字符进行编码使用 utf 8 编码没有问题当我使用 UTF 16 编码时我得到一些奇怪的前导字符我尝试删除所有尾随和前导字符但错误仍然存在代码
jquery 每个循环内的 Ajax 调用

这是一个我必须通过 ajax 调用写入 xml 文件的函数第一次进行 ajax 调用时代码可以正常工作在第二个each 循环中根本不进行ajax 调用我不知道为什么我将 asyn 指定为 false 但这没有帮助无论如何这似
Q-Learning 值太高

我最近尝试在 Golang 中实现基本的 Q Learning 算法请注意我对强化学习和人工智能总体来说是新手所以这个错误很可能是我的以下是我如何在 m n k 游戏环境中实施解决方案在每个给定的时间t 代理持有最后的状态动作 s

Q-Learning 值太高

Q-Learning 值太高 的相关文章

随机推荐

热门标签

Q-Learning 值太高的相关文章