了解稳定基线模型中的total_timesteps参数

2024-01-05

我正在阅读原版PPO纸 https://arxiv.org/pdf/1707.06347.pdf并尝试将其与输入参数相匹配稳定基线 PPO2 https://stable-baselines.readthedocs.io/en/master/modules/ppo2.html model.

我不明白的一件事是total_timesteps中的参数learn https://stable-baselines.readthedocs.io/en/master/modules/ppo2.html#stable_baselines.ppo2.PPO2.learn method.

论文提到

策略梯度实现的一种风格...运行 T 个时间步长的策略（其中 T 远小于剧集长度）

虽然稳定基线文档描述了total_timesteps参数为

(int) 训练样本总数

因此我认为T在论文中和total_timesteps文档中是相同的参数。

我不明白的是以下内容：

Does total_timesteps始终需要小于或等于环境中可用“帧”（样本）的总数（假设我有有限数量的帧，例如 1,000,000）。如果是这样，为什么？
通过设置total_timesteps对于小于可用帧数的数字，代理会看到训练数据的哪一部分？例如，如果total_timesteps=1000，代理是否只看到前 1000 帧？
一个情节是定义为可用帧的总数，还是定义为代理第一次“丢失”/“死亡”的时间？如果是后者，那么你怎么能提前知道代理什么时候会死才能设置total_timesteps到一个较小的值？

我仍在学习强化学习背后的术语，所以我希望我能够在上面清楚地解释我的问题。任何帮助/提示将非常受欢迎。

根据 stable-baselines 源代码

Total_timesteps 是步数in total该代理适用于任何环境。 Total_timesteps 可以跨越多个情节，这意味着该值不受某个最大值的限制。
假设您的环境具有超过 1000 个时间步。如果您调用一次学习函数，您只会体验到前 1000 帧，而该片段的其余部分是未知的。在许多实验中，您知道环境应该持续多少个时间步（即 CartPole），但对于长度未知的环境，这变得不太有用。但。如果您调用学习函数两次并假设环境片段有 1500 帧，您将看到完整的片段 + 第二个片段的 50%。
一个episodes被定义为当终端标志设置为true时（在健身房中，这通常也是在最大时间步长之后设置）许多其他RL实现使用total_episodes，这样你就不必关心时间步长考虑，但同样，缺点是，如果您达到吸引人的状态，您可能最终只能播放一集。

总时间步长参数还使用 n_steps，其中更新次数的计算如下：

n_updates = total_timesteps // self.n_batch

其中 n_batch 是矢量化环境数量的 n_steps 倍。

这意味着，如果您有 1 个环境运行，n_step 设置为 32，total_timesteps = 25000，则您将在学习调用期间对策略进行 781 次更新（不包括纪元，因为 PPO 可以在单个批次中进行多次更新）

教训是：

对于未知大小的环境，您必须使用此值。也许创建一个运行平均剧集长度并使用该值
如果剧集长度已知，请将其设置为您想要训练的所需剧集数。但是，它可能会更少，因为代理可能不会（可能不会）每次都达到最大步数。
TLDR 玩转该值（将其视为超参数）

希望这可以帮助！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

reinforcementlearning

了解稳定基线模型中的total_timesteps参数的相关文章

如何使用 pyinstaller 包含文件？

我也使用 tkinter 使用 python 3 7 编写了一个程序由于我使用的是外部图片因此当我将所有内容编译为一个 exe 时我需要包含它们我试过做 add data bg png files 但我仍然收到此错误 tkinter
boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

在 R 中绘制多个图时更改图的大小

我想知道当您使用 par mfrow c 函数绘制不同的图时是否有一种方法可以定义 R 中图的大小举一个简单的例子 par mfrow c 3 1 plot 1 2 plot 1 2 plot 1 2 所有地块都具有相同的大小例如是
C# 中小型集合的 List.Add 与 HashSet.Add

Given HashSet
如何在 postgres 中将多个值收集为单个字符串？

我有桌子 Project table id name 1 A 2 B Assignment table id name project id 1 A1 1 2 A2 1 3 A3 2 我希望编写一个查询返回每个项目以及从中创建的作业的名称
Laravel：不同路径的不同 api 速率限制

我需要为不同的路径设置不同的速率限制敌人的例子 On path users我希望每分钟 60 个请求的速率限制而路径 stats我希望速率限制为每分钟 5 个请求我尝试了下一种方法 Route group middleware gt
在这种代码中“Select 0 from”在做什么？

有人可以帮我理解从以下位置选择 0 是什么意思吗 delete from table1 where cond1 and cond2 and cond3 and not exists select 0 from table2 where c
读取空行 C++

我遇到的情况是我有一个循环每次它读取一个字符串但我不知道如何读取空白输入即如果用户什么都不输入并按回车键它会保留在那里我想将其读取为字符串并移至下一个输入下面是代码 int times 4 while times string
如何在 JSON 模式中使用定义 (draft-04)

我正在使用的其余服务响应类似于以下示例我在这里仅包含 3 个字段但还有更多字段 results type Person name Mr Bean dateOfBirth 14 Dec 1981 type Company name Pi
指定 wct-local 测试的浏览器位置

Polymer 入门套件包含用于对自定义元素进行单元测试的 Web 组件测试器 In wct conf json您可以指定运行测试的浏览器 suites app test plugins local browsers firefox 不幸的
Android AGP 8 + Gradle 8 + Kotlin 1.8 导致 Kapt 出现错误

我刚刚更新到Android Studio Flamingo 2022 2 1 现在我得到这个错误 Execution failed for task app kaptGenerateStubsDebugKotlin gt compileDe
如何用git“分割”文件

如果我必须遵循我的文件发展 branch file rb class Code def methodA aA1 end def methodB bB2 end end 但在我的master分支我想将方法分成不同的文件 in file rb
如何使用 org.hibernate.action.spi.AfterTransactionCompletionProcess？

我发现我真的很想使用这个类 org hibernate action spi AfterTransactionCompletionProcess http docs jboss org hibernate orm 3 6 javadocs
如何在 PerfView 中查看昂贵的方法

我创建了一个简单的控制台应用程序并通过 Run Command gt PerfMonTest exe 从 PerfView 执行它我获取日志文件并查看应用程序的进程正如预期的那样它很昂贵 99 CPU 但是当我想深入研究昂贵的方法时
xpath - 如何选择此提交按钮？

我怎样才能选择这个提交按钮 li class action input action li
JsonDeserializer 不适用于类，仅适用于类的单个元素

我创建了一个新的反序列化器能够将空字符串写为 null public class CustomDeserializer extends JsonDeserializer
如何在 UserControl 中绑定集合依赖属性

这不是重复的当我失败时我尝试查看类似的帖子但没有成功我不明白为什么OnUCItemsSourceChanged是不是叫我很确定我错过了一些简单的东西但我找不到它 I have Window其中包含UserControl1它附加了
在 Flex/AS3 中，您会使用什么来对数字进行零填充？

重复的this https stackoverflow com questions 611873 ruby like question make this function shorter actionscript 3 611961 611
如何创建在全屏应用程序上显示的 Javascript/Chrome 通知

我有一个 Web 应用程序 HTML5 CSS3 JQuery 它使用两种方法显示通知类似咆哮的 jquery 插件 javascript html 或使用 Chrome 通知 API 仅当您使用 Chrome 时我想要的是创建一个类似
XML 文件中的条件替换

我正在使用 PowerShell 递归地替换 XML 文件中的文本该脚本在替换时工作正常但是 XML 文件也有不应替换的文件路径这是当前正在使用的脚本 if content match web site web site conten
线性规划优化和梯度下降优化之间有什么区别？

在线性规划问题中我们制定两个线性函数和一个优化函数我们找到两个线性函数相交的点并将这些值替换到优化函数中以获得最大值或最小值这与梯度优化有什么不同任何人都可以从数学上详细说明这一点两种方法都达到全局最大值或最小值吗哪个更好线
了解稳定基线模型中的total_timesteps参数

我正在阅读原版PPO纸 https arxiv org pdf 1707 06347 pdf并尝试将其与输入参数相匹配稳定基线 PPO2 https stable baselines readthedocs io en master mod

了解稳定基线模型中的total_timesteps参数

了解稳定基线模型中的total_timesteps参数 的相关文章

随机推荐

热门标签

了解稳定基线模型中的total_timesteps参数的相关文章