Keras 代码有问题 Q-learning OpenAI 健身房 FrozenLake

2024-01-21

也许我的问题会显得很愚蠢。

我正在研究 Q-learning 算法。为了更好地理解它，我正在尝试重新制作 Tenzorflow 代码这个结冰的湖 https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-0-q-learning-with-tables-and-neural-networks-d195264329d0将示例写入 Keras 代码中。

My code:

import gym
import numpy as np
import random

from keras.layers import Dense
from keras.models import Sequential
from keras import backend as K    

import matplotlib.pyplot as plt
%matplotlib inline

env = gym.make('FrozenLake-v0')

model = Sequential()
model.add(Dense(16, activation='relu', kernel_initializer='uniform', input_shape=(16,)))
model.add(Dense(4, activation='softmax', kernel_initializer='uniform'))

def custom_loss(yTrue, yPred):
    return K.sum(K.square(yTrue - yPred))

model.compile(loss=custom_loss, optimizer='sgd')

# Set learning parameters
y = .99
e = 0.1
#create lists to contain total rewards and steps per episode
jList = []
rList = []

num_episodes = 2000
for i in range(num_episodes):
    current_state = env.reset()
    rAll = 0
    d = False
    j = 0
    while j < 99:
        j+=1

        current_state_Q_values = model.predict(np.identity(16)[current_state:current_state+1], batch_size=1)
        action = np.reshape(np.argmax(current_state_Q_values), (1,))

        if np.random.rand(1) < e:
            action[0] = env.action_space.sample() #random action

        new_state, reward, d, _ = env.step(action[0])

        rAll += reward
        jList.append(j)
        rList.append(rAll)

        new_Qs = model.predict(np.identity(16)[new_state:new_state+1], batch_size=1)
        max_newQ = np.max(new_Qs)

        targetQ = current_state_Q_values
        targetQ[0,action[0]] = reward + y*max_newQ
        model.fit(np.identity(16)[current_state:current_state+1], targetQ, verbose=0, batch_size=1)
        current_state = new_state

        if d == True:
            #Reduce chance of random action as we train the model.
            e = 1./((i/50) + 10)
            break
print("Percent of succesful episodes: " + str(sum(rList)/num_episodes) + "%")

当我运行它时，它效果不佳：成功剧集百分比：0.052%

plt.plot(rList)

The 原始张量流代码 https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-0-q-learning-with-tables-and-neural-networks-d195264329d0好多了：成功剧集百分比：0.352%

plt.plot(rList)

我做错了什么？

除了像评论中提到的 @Maldus 设置 use_bias=False 之外，您可以尝试的另一件事是从更高的 epsilon 值开始（例如 0.5、0.75）？一个技巧可能是仅在达到目标时才降低 epsilon 值。即不要在每集结束时减少 epsilon。这样你的玩家就可以继续随机探索地图，直到它开始收敛在一条好的路线上，然后减少 epsilon 参数将是一个好主意。

我实际上在 keras 中实现了类似的模型gist https://gist.github.com/weiji14/bab587907681869ec0f70f7496f98a12使用卷积层而不是密集层。设法让它在 2000 集以内运行。可能对其他人有一些帮助:)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Keras 代码有问题 Q-learning OpenAI 健身房 FrozenLake 的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在

随机推荐

从 .html 文件读取其内容的简单 Flask 应用程序。外部样式表被阻止？

我制作了一个非常简单的 Flask 应用程序它从 html 文件读取其内容除了样式之外该应用程序可以正常工作奇怪的是我的内联 CSS 代码可以工作但外部样式表却不能工作我已经检查过语法它应该可以工作 Flask 是否会以某种
如何编写可变参数模板递归函数？

我正在尝试编写一个可变参数模板constexpr计算给定模板参数总和的函数这是我的代码 template
快速安全的加密算法 C#

我正在寻找一种使用 C 实现的快速且安全的加密算法我需要能够恢复初始消息你有什么建议感谢您的帮助如果需要非对称加密请使用 2048 位 RSA 如果您可以使用对称加密请使用 256 位 AES MSDN 参考系统安全密码学
自动调整用户表单大小

目标是一个可以自动调整大小以显示所有可见控件但没有额外死区的用户窗体顶部始终可见 3 个组合框但在其下方是 26 个标签及其关联的 5 个选项按钮复选框这 26 行将全部开始隐藏并且仅在特定条件下可见三个组合框中的第一个将说明
如何使用 DataTemplates 通过 ViewModel-First 方法缓存动态切换的视图

我在用GalaSoft MvvmLight框架我的一些看法MainWindow xaml我通过用户选择在运行时动态地在它们之间切换这些视图使用以下技术与其相应的视图模型绑定主窗口 xaml
如何将存储库镜像同步到新的上游存储库

我有一个仓库镜像服务器 myrepo 最初是为了镜像而创建的与远程同步 repoA 也就是说我使用类似以下的内容来创建它 cd myrepo repo init u git repoA server manifest git mirro
RedHat Enterprise Linux 5.3 及以上版本不正确支持 sem_timedwait？

我们在使用 pthreadsem timedwait 的 RedHat Enterprise Linux 系统上看到了奇怪的行为仅 5 3 及以上版本才会出现此情况当我们使用 sem init 在后台线程上创建信号量时不会返回错误当
Xcode 错误：缺少必需的模块“Firebase”

问题我有一个动态框架它使用Firebase由 cocoapods 添加我还有应用程序它使用这个动态框架但是当我尝试构建项目时出现错误Missing required module Firebase 我尝试了以下方法删除派生数据
持续监控前 X 个进程的 CPU 使用率

我希望能够每 5 秒将最高 CPU 消耗者输出到日志文件这样我就可以在测试期间看到谁使用了最多的 cpu 我发现这个答案很常见 cpu Get Counter ComputerName localhost Process Processo
Mojolicious 中用于处理不同路径的全局变量和线程

在我的 Mojolicious perl 代码中我处理从远程客户端创建和监视的作业我将作业保存在哈希数组中这是一个全局变量然后它在 PUT job create 和 GET job status 的处理程序中使用当使用 PUT j
映射抽象类和子类时NHibernate DuplicateMappingException

我有一个抽象类及其子类我想使用 NHibernate 将其映射到我的数据库我在用着Fluent https github com FluentNHibernate fluent nhibernate wiki Fluent config
连接故事板中 Cell Prototype 的插座

我是故事板的新手所以我遇到了一些困难我已经创建了一个 TableViewController 我想自定义单元原型在单元格原型中我添加了几个标签我想用我自己的继承自 UITableViewCell AreaListCell 的类进行
正弦 180 的值为 1.22465e-16

我想在ios4中实现一个正弦和余弦计算器 if operation isEqual sin operand operand M PI 180 0 operand sin operand 该代码为我提供了 0 到 90 之间的值的正确答案当
socket.io - 为一个套接字获取多个字段？

当用户断开连接时我有以下代码我想发出带有房间名称和用户名的信号 client get nickname function err name client get room function err2 room io sockets in
如果启用静态压缩，IIS 中的 gzip js 不会被压缩

我已经使用 Squishit 来缩小和捆绑 JS 并压缩捆绑文件我在 IIS 7 5 中启用了选项启用静态内容压缩问题是 Js 没有被压缩我只是得到缩小的 js 但如果我启用动态内容压缩那么 Js 就会被压缩现在动态压缩的问题是它
scanf从一个输入读取多种数据类型

所以我试图读入以下形式的方程mx b y 我该如何使用scanf读取多种数据类型我尝试过使用类似的东西 scanf d c c d c d num1 variable sign num2 equal sign num3 在这种格式下它读
如何在Keycloak中创建脚本映射器？

我需要在 Keycloak 中创建一个 Script Mapper 类型的协议映射器该脚本应该获取用户属性检查其大小并将其放在令牌上我没有找到有关如何创建脚本的文档或示例从我收集到的零碎信息来看我想脚本需要看起来像这样 var
Windows 10 CLI 终端中的“git log”输出编码问题

Problem 我怎样才能使git log命令输出是否正确显示在 Windows CLI 终端中 Example 正如您所看到的我可以正确输入变音字符但是git log 输出以某种方式被转义根据UTF 8编码表 http www ut
Android Gradle 如何为 Android 构建 Google API 4.2.2 而不是 Android 4.2.2

是否可以使用 gradle 为 Android Google APIs SDK 构建而不是通用的 Android SDK 我的项目中需要 Google Maps API 因此我需要更改构建目标我只能找到构建版本为 17 的示例编译SDK
Keras 代码有问题 Q-learning OpenAI 健身房 FrozenLake

也许我的问题会显得很愚蠢我正在研究 Q learning 算法为了更好地理解它我正在尝试重新制作 Tenzorflow 代码这个结冰的湖 https medium com emergent future simple reinforc

Keras 代码有问题 Q-learning OpenAI 健身房 FrozenLake

Keras 代码有问题 Q-learning OpenAI 健身房 FrozenLake 的相关文章

随机推荐

热门标签