Pytorch(Python)中的itertools.count()函数

2023-05-16

在看深度强化学习DQN代码时，遇到这段代码，搞了好久都没看明白。
完整代码参考这个博客。

for t in count():
        #count()用法： itertools.count(start=0, step=1)
        #start:序列的开始(默认为0)
        #step:连续数字之间的差(默认为1)
        reward = 0  #设置初始化奖励为0
        m_reward = 0#求和奖励
        # 每m帧完成一次action
        action = select_action(state)#选择动作
        #每四步更新一次奖励
        for i in range(m):
            #与环境交互，选择一个动作之后，获得奖励，并判断是否时最终状态
            _, reward, done, _ = env.step(action.item()) 
            if not done:
                #如果不是终止状态，那么屏幕截屏到next_state_queue
                next_state_queue.append(get_screen())
            else:
                #否则的话，就终止程序
                break
            m_reward += reward#然后累加奖励

        if not done:
            #如果不是终止状态，那么就进入下一个状态，把下一个状态连接到一起，使用tuple，不会被修改
            next_state = torch.cat(tuple(next_state_queue), dim=1)
        else:
            #如果是终止状态，则下一个状态就没有了，获取最终奖励
            next_state = None
            m_reward = 150
        m_reward = torch.tensor([m_reward], device=device)#把奖励转换成张量

        memory.push(state, action, next_state, m_reward)#把计算出来的四个元素集存储到replay buffer中

        state = next_state#把下一个状态转为当前状态
        optimize_model()#开始优化模型

这个for循环的使用方式说实话我是真的不明白。

for t in count():

能找到关于count()的信息是上面的import部分

from itertools import count

然后我找了好多博客，最后这个博客给我讲明白了。

itertools.count(start,step)函数的意思是创建一个从start开始每次的步长是step的无穷序列
当count()括号里为空时，表示从0开始，每次步长为1.

我们再回到实际的代码环境中。
这段代码出现在迭代训练阶段
第一个for循环时迭代次数
在这个训练开始时，我们会使用random_start()函数计算出done, state_queue, next_state_queue，即状态的状态（终止状态和非终止状态），当前状态序列和下一个状态序列。
然后首先就要判断当前状态时是否是终止状态，不是终止状态就继续我们说的这个for循环。
那么第二个这个for循环为什么时无限制循环的呢？

for t in count():

这个循环开始，首先就是初始化奖励和初始化累计奖励

reward = 0  #设置初始化奖励为0
m_reward = 0#求和奖励

然后使用动作选择函数选择算法需要执行的动作

action = select_action(state)#选择动作

下面就开始第三个循环了

for i in range(m):

m=4，因为每个状态有四张图像
这个循环的第一行代码是

_, reward, done, _ = env.step(action.item())

作用就是将上面选择的动作输入到环境中，然后环境会给出奖励和判断该奖励是否是终止状态。

            if not done:
                #如果不是终止状态，那么屏幕截屏到next_state_queue
                next_state_queue.append(get_screen())
            else:
                #否则的话，就终止程序
                break
            m_reward += reward#然后累加奖励

然后就开始判断该状态是否是终止状态，如果是终止状态就跳出该循环，不是的话就把当前屏幕截屏添加到next_state_queue序列中。
m=4，所以要执行四次。然后把这四次采集到的图像存储到序列中，需要提到的是，在这个for循环中，agent所使用的动作是一样的。
采集到四张图像之后，这个循环结束。
然后开始金鱼不判断状态是否结束了

        if not done:
            #如果不是终止状态，那么就进入下一个状态，把下一个状态连接到一起，使用tuple，不会被修改
            next_state = torch.cat(tuple(next_state_queue), dim=1)
        else:
            #如果是终止状态，则下一个状态就没有了，获取最终奖励
            next_state = None
            m_reward = 150

如果没有结束，就把这个next_state_queue中的图像拼接cat起来，
如果是终止状态，那么提示没有下一个状态，给出奖励。
然后进行下一步

        m_reward = torch.tensor([m_reward], device=device)#把奖励转换成张量
        memory.push(state, action, next_state, m_reward)#把计算出来的四个元素集存储到replay buffer中
        state = next_state#把下一个状态转为当前状态
        optimize_model()#开始优化模型

这个动作执行结束后，把奖励转成张量，然后把transition四元数存储到replay buffer中。
然后更新当前状态。
开始优化模型。
在开始判断状态是否终止
并保存训练过程数据和更新网络模型参数
保存模型

        if done:
            episode_durations.append(t + 1)
            plot_durations()
            break

    # 更新目标网络，复制DQN中的所有权重和偏置
    if i_episode % TARGET_UPDATE == 0:
        target_net.load_state_dict(policy_net.state_dict())
        if i_episode % 1000 ==0:
            torch.save(policy_net.state_dict(), 'weights/policy_net_weights_{0}.pth'.format(i_episode))

当我把所有的循环看完之后，终于明白。这个无限循环的for循环是为了收集replay buffer中的transition。我们设置replay buffer的容量为100000，但是由于agent’与环境交互的不可知性导致我们知道到底要多少步才能完成。所以使用了这个循环。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch(Python)中的itertools.count()函数的相关文章

使用单个文件的 Python 日志记录（函数名、文件名、行号）

我正在尝试了解应用程序的工作原理为此我将调试命令插入作为每个函数主体的第一行目的是记录函数的名称以及向日志输出发送消息的行号代码内最后由于这个应用程序由许多文件组成我想创建一个日志文件以便我可以更好地理解应用程序的控制流这
为神经网络打乱两个 numpy 数组

我有两个 numpy 数组用于输入数据 X 和输出数据 y X np array 2 3 sample 1 x 16 4 dtype float sample 2 x y np array 1 0 sample 1 y 0 1 dtype
分配列表的多个值

我很想知道是否有一种 Pythonic 方式将列表中的值分配给元素为了更清楚我要求这样的事情 myList 3 5 7 2 a b c d something myList So that a 3 b 5 c 7 d 2 我正在寻找比手
为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
如何在 QTableView 标题中单击鼠标右键单击上下文菜单？

下面的示例代码很大程度上受到here http www saltycrane com blog 2007 12 pyqt 43 qtableview qabstracttablemodel 有一个右键单击上下文菜单当用户单击表中的单元格
区分大小写的实体识别

我的关键字全部以小写形式存储例如折扣耐克鞋我正在尝试对其执行实体提取我遇到的问题是 spaCy 在 NER 方面似乎区分大小写请注意我不认为这是 spaCy 特有的当我跑步时 doc nlp u i love nike sho
Python Numpy Reshape错误[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试重塑 3D numpy 数组时遇到一个奇怪的错误数组 x 的形状为 6 10 300 我想将其重塑为 6 3000 我正
Python设置1和True的解释

在 IPython 3 交互式 shell 中 In 53 set2 1 2 True hello In 54 len set2 Out 54 3 In 55 set2 Out 55 hello True 2 是因为 1 和 True 得到
绝对导入不起作用，但相对导入起作用

这是我的应用程序结构 foodo setup py foodo init py foodo py models py foodo foodo foodo py从导入类models py module from foodo models im
Django 查询：“datetime + delta”作为表达式

好吧我的问题如下假设我有下一个模型这是一个简单的情况 class Period models Model name CharField field specs here start date DateTimeField field s
检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
一个类似 dict 的 Python 类

我想编写一个自定义类其行为类似于dict 所以我继承自dict 不过我的问题是我是否需要创建一个私有的dict我的成员 init 方法我不明白这个有什么意义因为我已经有了dict如果我只是继承自的行为dict 谁能指出为什么大多
如何处理 Tkinter 中的窗口关闭事件？

如何在 Python Tkinter 程序中处理窗口关闭事件用户单击 X 按钮 Tkinter 支持一种称为协议处理程序 http web archive org web 20201111215134 http effbot org tk
操作错误：尝试在 ubuntu 服务器中写入只读数据库

我正在使用 FlaskApp 运行mod wsgi and apache2在 Ubuntu 服务器上我尝试运行烧瓶应用程序localhost成功然后部署到ubuntu服务器上但是当我尝试更新数据库时出现错误 Failed to up
异步异常处理程序：在事件循环线程停止之前不会被调用

我正在我的异步事件循环上设置异常处理程序但是在事件循环线程停止之前它似乎不会被调用例如考虑以下代码 def exception handler loop context print Exception handler called
有没有办法拉伸整个显示图像以适应给定的分辨率？

我最近一直在使用pygame制作游戏遇到了一个小问题基本上我希望能够将屏幕上的整个图像我已经传输到它的所有内容拉伸到用户将窗口大小调整到的分辨率我在 pygame 和堆栈溢出的文档中搜索了很多但我似乎找不到答案这可能吗我的
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
如何在 Qt 中以编程方式制作一条水平线

我想弄清楚如何在 Qt 中制作一条水平线这很容易在设计器中创建但我想以编程方式创建一个我已经做了一些谷歌搜索并查看了 ui 文件中的 xml 但无法弄清楚任何内容 ui 文件中的 xml 如下所示

随机推荐

CMake Error at /usr/lib/x86_64-linux-gnu/cmake/Qt5Core/Qt5CoreConfig.cmake:27 (message)

CMake Error at usr lib x86 64 linux gnu cmake Qt5Core Qt5CoreConfig cmake 27 message 在catkin make的时候 xff0c 如果提示 so文件报错 x
Deep-Sort多目标追踪算法代码解析

Deep SORT是多目标跟踪 Multi Object Tracking 中常用到的一种算法 xff0c 是一个Detection Based Tracking的方法这个算法工业界关注度非常高 xff0c 在知乎上有很多文章都是使用了D
红黑树的查找时间复杂度O(logn)

红黑树查找时间复杂度如果二叉排序树是平衡的 xff0c 则n个节点的二叉排序树的高度为Log2n 43 1 其查找效率为O Log2n xff0c 近似于折半查找如果二叉排序树完全不平衡 xff0c 则其深度可达到n xff0c 查找效
Ubuntu16.04环境下STM32和ROS间的串口通信

目录前言介绍 lt 1 gt 最终协议的样子 lt 2 gt 本方案提供的API实现的功能原理 lt 1 gt 简要叙述 lt 2 gt 这里是如何使用共用体的 xff1f 前期准备 lt 1 gt 确保硬件连接 lt 2 gt 查看串
C++版本OpenCv教程(三十五 )Laplacian算子

上述的边缘检测算子都具有方向性 xff0c 因此需要分别求取X方向的边缘和Y方向的边缘 xff0c 之后将两个方向的边缘综合得到图像的整体边缘 Laplacian算子具有各方向同性的特点 xff0c 能够对任意方向的边缘进行提取 xff0c
【从零开始学深度学习编译器】五，TVM Relay以及Pass简介

TVM Relay以及Pass简介 0x0 介绍0x2 Relay介绍0x2 1 使用Relay建立一个计算图0x2 2 Module xff1a 支持多个函数 xff08 Graphs xff09 0x2 3 Let Binding an
模型量化的原理与实践 —基于YOLOv5实践目标检测的PTQ与QAT量化

这里写自定义目录标题一量化基础知识 1 1 Tops是什么意思 1 2 什么是定点数 1 3 定点数转换 1 4 什么是量化 1 5 定点计算 1 5 1 定点计算误差计算 1 5 2 定点计算内存对比 1 5 3 定点计算速度对
TensorRT INT8量化说明文档

TensorRT developer guide intro quantization 7 Working with INT8 7 1 Introduction to Quantization 7 1 1 Quantization Work
YOLO-NAS讲解

Meet YOLO NAS New YOLO Object Detection Model Beats YOLOv6 amp YOLOv8 代码链接 What is YOLO NAS What does the NAS in YOLO NA
Windows下jupyter notebook的安装和使用

1 安装 xff1a xff08 1 xff09 首先打开Windows命令终端 xff1a 输入命令 xff1a pip install jupyter notebook 慢慢等待安装完成就可以了我的是已经是安装完成了在命令行窗口中输
无人驾驶模型预测控制carSIM和MATLAB联合仿真

本例参照龚建伟的无人驾驶车辆模型预测控制书中第四章节 1 carSIM软件介绍 carSIM是由美国MSC公司开发的车辆动力学仿真软件 xff0c 它可以方便灵活地定义实验环境和试验过程 xff0c 准确预测和仿真汽车的操纵稳定性动力
Ubuntu之间通过有线网sftp传输文件

两台Ubuntu设备之间有线网直连 xff0c 通过sftp传输文件 xff1a 打开有线连接 xff0c 配置ipv4 xff0c 可参考下图 xff1a 两台Ubuntu设备使用同一个网关 xff0c 但是地址ip必须不同 xff0c
虚拟机VMware15中安装Ubuntu18.04步骤

先安装虚拟机VMware15 xff1a 下载地址 xff1a Windows 10 64位下载链接 xff1a pan baidu com s 1Q9MVsEzVVoeOb99lQ1tsVQ 提取码 xff1a dggh Windows
机械手基础知识（2）之机械手的正运动学和逆运动学问题

开篇总结 xff1a 机械手运动学是机器人控制中的重要研究内容 xff0c 得知机械手各关节变量的大小 xff0c 可以计算出机械手末端的位姿 xff0c 这个过程叫做机械手的正向运动学 xff1b 获得机械手末端在笛卡尔空间中的位姿 xf
一看就懂的LSTM+Attention，此处用softmax求概率

1 序言首先 xff0c 我是看这两篇文章的但是 xff0c 他们一个写的很笼统 xff0c 一个是根据Encoder Decoder和Query key value 第二个讲的太深奥了 xff0c 绕来绕去 xff0c 看了两天才知道
pytorch 保存模型+加载模型+修改部分层+冻结部分层+删除部分层

pytorch的一些细节操作本文以普通的CNN为例 1 实验用的模型参考博客 2 模型代码原始代码分成两个部分 xff1a 第一个是写CNN模型框架的py文件 xff0c cnn py 第二个是主文件 xff0c 用于下载数据和模型超
Windows下，Pytorch使用Imagenet-1K训练ResNet的经验（有代码）

感谢中科院 xff0c 感谢东南大学 xff0c 感谢南京医科大 xff0c 感谢江苏省人民医院以的赞助题记只有被ImageNet真正殴打过一次才算是真的到了深度学习的坑边 xff0c 下一步才是入坑引用装备所兰海大佬的一句话 xff
实际的机械臂控制（8）使用find_object3D和Kinect2实现目标跟踪(基于python)

单纯的炫耀我的新机械臂和留下联系方式话不多说了由于很多向入门机械臂的人不知道如何把视觉算法检测到目标坐标从图像坐标系转换到机器人坐标系就这一关 xff0c 让好多人包括我 xff0c 在这块卡了很久以前我用的是小强机械臂 xff0c
python生成pkl文件（pkl文件的读取和写入）

我在训练UCF101数据集的时候 xff0c 遇到一个大高玩使用pkl文件 xff0c 一开始使用它们的数据炮的好好的后来开始跑自己的数据时 xff0c 就出问题了不知道这个pkl到底是个什么东西原始的那个大高玩的ucf101的标签数
Pytorch(Python)中的itertools.count()函数

在看深度强化学习DQN代码时 xff0c 遇到这段代码 xff0c 搞了好久都没看明白完整代码参考这个博客 span class token keyword for span t span class token keyword in s

Pytorch(Python)中的itertools.count()函数

Pytorch(Python)中的itertools.count()函数 的相关文章

随机推荐

热门标签

Pytorch(Python)中的itertools.count()函数的相关文章