PyTorch 中的截断反向传播（代码检查）

2024-03-14

我正在尝试在 PyTorch 中实现随时间截断的反向传播，对于以下简单情况K1=K2。我下面有一个实现可以产生合理的输出，但我只是想确保它是正确的。当我在网上查找 TBTT 的 PyTorch 示例时，它们在分离隐藏状态、将梯度归零以及这些操作的顺序方面做了不一致的事情。如果我犯了错误，请告诉我。

在下面的代码中，H保持当前的隐藏状态，并且model(weights, H, x)输出预测和新的隐藏状态。

while i < NUM_STEPS:
    # Grab x, y for ith datapoint
    x = data[i]
    target = true_output[i]

    # Run model
    output, new_hidden = model(weights, H, x)
    H = new_hidden

    # Update running error
    error += (output - target)**2

    if (i+1) % K == 0:
        # Backpropagate
        error.backward()
        opt.step()
        opt.zero_grad()
        error = 0
        H = H.detach()

    i += 1

因此，代码的想法是在每个第 K 步之后隔离最后一个变量。是的，你的实现是绝对正确的，这answer https://discuss.pytorch.org/t/correct-way-to-do-backpropagation-through-time/11701/3证实了这一点。

# truncated to the last K timesteps
while i < NUM_STEPS:
    out = model(out)
    if (i+1) % K == 0:
        out.backward()
        out.detach()
out.backward()

您还可以关注this https://github.com/pytorch/ignite/blob/master/ignite/contrib/engines/tbptt.py示例供您参考。

import torch

from ignite.engine import Engine, EventEnum, _prepare_batch
from ignite.utils import apply_to_tensor


class Tbptt_Events(EventEnum):
    """Aditional tbptt events.

    Additional events for truncated backpropagation throught time dedicated
    trainer.
    """

    TIME_ITERATION_STARTED = "time_iteration_started"
    TIME_ITERATION_COMPLETED = "time_iteration_completed"


def _detach_hidden(hidden):
    """Cut backpropagation graph.

    Auxillary function to cut the backpropagation graph by detaching the hidden
    vector.
    """
    return apply_to_tensor(hidden, torch.Tensor.detach)


def create_supervised_tbptt_trainer(
    model, optimizer, loss_fn, tbtt_step, dim=0, device=None, non_blocking=False, prepare_batch=_prepare_batch
):
    """Create a trainer for truncated backprop through time supervised models.

    Training recurrent model on long sequences is computationally intensive as
    it requires to process the whole sequence before getting a gradient.
    However, when the training loss is computed over many outputs
    (`X to many <https://karpathy.github.io/2015/05/21/rnn-effectiveness/>`_),
    there is an opportunity to compute a gradient over a subsequence. This is
    known as
    `truncated backpropagation through time <https://machinelearningmastery.com/
    gentle-introduction-backpropagation-time/>`_.
    This supervised trainer apply gradient optimization step every `tbtt_step`
    time steps of the sequence, while backpropagating through the same
    `tbtt_step` time steps.

    Args:
        model (`torch.nn.Module`): the model to train.
        optimizer (`torch.optim.Optimizer`): the optimizer to use.
        loss_fn (torch.nn loss function): the loss function to use.
        tbtt_step (int): the length of time chunks (last one may be smaller).
        dim (int): axis representing the time dimension.
        device (str, optional): device type specification (default: None).
            Applies to batches.
        non_blocking (bool, optional): if True and this copy is between CPU and GPU,
            the copy may occur asynchronously with respect to the host. For other cases,
            this argument has no effect.
        prepare_batch (callable, optional): function that receives `batch`, `device`,
            `non_blocking` and outputs tuple of tensors `(batch_x, batch_y)`.

    .. warning::

        The internal use of `device` has changed.
        `device` will now *only* be used to move the input data to the correct device.
        The `model` should be moved by the user before creating an optimizer.

        For more information see:

        * `PyTorch Documentation <https://pytorch.org/docs/stable/optim.html#constructing-it>`_
        * `PyTorch's Explanation <https://github.com/pytorch/pytorch/issues/7844#issuecomment-503713840>`_

    Returns:
        Engine: a trainer engine with supervised update function.

    """

    def _update(engine, batch):
        loss_list = []
        hidden = None

        x, y = batch
        for batch_t in zip(x.split(tbtt_step, dim=dim), y.split(tbtt_step, dim=dim)):
            x_t, y_t = prepare_batch(batch_t, device=device, non_blocking=non_blocking)
            # Fire event for start of iteration
            engine.fire_event(Tbptt_Events.TIME_ITERATION_STARTED)
            # Forward, backward and
            model.train()
            optimizer.zero_grad()
            if hidden is None:
                y_pred_t, hidden = model(x_t)
            else:
                hidden = _detach_hidden(hidden)
                y_pred_t, hidden = model(x_t, hidden)
            loss_t = loss_fn(y_pred_t, y_t)
            loss_t.backward()
            optimizer.step()

            # Setting state of engine for consistent behaviour
            engine.state.output = loss_t.item()
            loss_list.append(loss_t.item())

            # Fire event for end of iteration
            engine.fire_event(Tbptt_Events.TIME_ITERATION_COMPLETED)

        # return average loss over the time splits
        return sum(loss_list) / len(loss_list)

    engine = Engine(_update)
    engine.register_events(*Tbptt_Events)
    return engine

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

backpropagation

PyTorch 中的截断反向传播（代码检查）的相关文章

如何修复输入和参数张量不在同一设备上？

我看到其他人也遇到此错误我尝试按照步骤解决但仍然收到此错误运行时错误输入和参数张量不在同一设备上在 cpu 处找到输入张量在 cuda 0 处找到参数张量我运行 model to device 和 input seq to d
反向传播中的梯度检查

我正在尝试对具有 2 个单位输入层 2 个单位隐藏层和 1 个单位输出层的简单前馈神经网络实现梯度检查我所做的如下取所有层之间网络权重的每个权重 w 并使用 w EPSILON 然后使用 w EPSILON 执行前向传播使用两个前馈传
PyTorch 无法检测 CUDA

我在 PyTorch 上运行 CNN torch cuda is available 函数返回 false 并且未检测到 GPU 不过我可以使用 GPU 运行 Keras 模型这是我的系统信息操作系统 Ubuntu 18 04 3 P
如何在 PyTorch 数据加载器中将 RGB 图像转换为灰度图像？

我已经从 MNIST 数据集中下载了一些示例图像 jpg格式现在我正在加载这些图像来测试我的预训练模型 transforms to apply to the data trans transforms Compose transforms
当我有另一个具有该版本的 conda 环境时，为什么 pip 不允许我在新的 conda 环境中安装 torch==1.9.1+cu111 ？

当我在新的 conda 环境中运行 pip install 时 base brando9 pip install torch 1 9 1 cu111 torchvision 0 10 1 cu111 torchaudio 0 9 1 f h
如何在 PyTorch 中的特定新维度中重复张量

如果我有一个张量A有形状 M N 我想重复张量 K 次以便结果B有形状 M K N 和每片B k 应该具有相同的数据A 这是没有 for 循环的最佳实践 K可能在其他维度 torch repeat interleave and tenso
用我自己的值初始化pytorch卷积层

我想知道是否有办法用我自己的值初始化 pytorch 卷积过滤器例如我有一个元组 0 8423 0 3778 3 1070 2 6518 我想用这些值初始化 2X2 过滤器我该怎么做我查找了一些答案但他们大多使用火炬正态分布和其他
pytorch - “conv1d”在哪里实现？

我想看看 conv1d 模块是如何实现的https pytorch org docs stable modules torch nn modules conv html Conv1d https pytorch org docs stabl
Pytorch 数据加载器：错误的文件描述符和 EOF > 0

问题描述在使用由自定义数据集制作的 Pytorch 数据加载器进行神经网络训练期间我遇到了奇怪的行为数据加载器设置为workers 4 pin memory False 大多数时候训练都顺利完成有时训练会随机停止并出现以下错误
Pytorch 分析器显示两个不同网络的卷积平均执行时间不同

我有两个网络我正在对它们进行分析以查看哪些操作占用了大部分时间我注意到CUDA time avg为了aten conv2d不同网络的操作有所不同这也增加了一个数量级在我的第一个网络中它是22us 而对于第二个网络则是3ms 我的第
RuntimeError：维度指定为 0 但张量没有维度

我试图使用 MNIST 数据集实现简单的 NN 但我不断收到此错误将 matplotlib pyplot 导入为 plt import torch from torchvision import models from torchvisi
为什么测试时一定要用DataParallel？

在GPU上训练 num gpus设置为1 device ids list range num gpus model NestedUNet opt num channel 2 to device model nn DataParallel m
PyTorch 教程错误训练分类器

我刚刚开始 PyTorch 教程使用 PyTorch 进行深度学习 60 分钟闪电战我应该补充一点我之前没有编写过任何 python 但其他语言如 Java 现在我的代码看起来像 import torch import torchvi
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
torch.mm、torch.matmul 和 torch.mul 有什么区别？

阅读完 pytorch 文档后我仍然需要帮助来理解之间的区别torch mm torch matmul and torch mul 由于我不完全理解它们所以我无法简明地解释这一点 B torch tensor 1 1207 0 3137
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
使 CUDA 内存不足

我正在尝试训练网络但我明白了我将批量大小设置为 300 并收到此错误但即使我将其减少到 100 我仍然收到此错误更令人沮丧的是在 1200 个图像上运行 10 epoch 大约需要 40 分钟有什么建议吗错了我怎样才能加快这
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r
pytorch 中的 autograd 可以处理同一模块中层的重复使用吗？

我有一层layer in an nn Module并在一次中使用两次或多次forward步这个的输出layer稍后输入到相同的layer pytorch可以吗autograd正确计算该层权重的梯度 def forward x x self
如何有效地对一个数组中某个值在另一个数组中的位置出现的次数求和

我正在寻找一种有效的 for 循环避免解决方案来解决我遇到的数组相关问题我想使用一个巨大的一维数组 A gt size 250 000 用于一维索引的 0 到 40 之间的值以及用于第二维索引的具有 0 到 9995 之间的值的相同大

随机推荐

Galaxy Tab 出现奇怪的性能问题

我正在编写 2d 教程并且能够在 Samsung Galaxy Tab 上测试我当前的教程部分本教程只是在屏幕上随机移动默认图标通过点击我创建了一个新的移动图标只要屏幕上有 25 个或更少的元素 Galaxy 上的一切都可以正常运
Linux 上 Objective-C 的 IDE [已关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在学习 Objective C 我想知道在哪里可以找到 Linux 上 Objective C 的
加载逗号后空格不一致的 CSV 文件

我想使用加载 CSV 文件LOAD DATA INFILE命令但逗号后面的空格不一致即有些逗号后面跟着空格有些逗号后面没有空格我尝试使用FIELDS TERMINATED BY 指令但结果表中的某些字段包含前导空格如果输入是 a
如何将我自己的存储库分叉到新项目中？

我正在开发一个 HTML5 游戏引擎我使用 Git 作为 SV 并使用 GitHub 来实际托管该项目我在设计上做了一些实质性的改变主要是切换到实体系统范例我认为是时候换一个新引擎了我想将它建立在旧引擎的基础上因为我可以使用很多
Javascript：添加动态方法的更好方法？

我想知道是否有更好的方法向现有对象添加动态方法基本上我试图动态地组装新方法然后将它们附加到现有函数中该演示代码有效 builder function fn methods method builder for p in method
加载 JSON 文件时出现内存错误

当我加载 500Mo 大的 JSON 文件时 Python 和间谍程序返回 MemoryError 但我的电脑有 32Go RAM 当我尝试加载它时 spyder 显示的内存从 15 变为 19 看来我应该有更多的空间有什么我没想到
将网络抓取的响应保存为 csv 文件

我从网站下载了一个文件rvest 如何将回复另存为csv file Step 1 猴子补丁rvest像这个线程中的包如何在 Rvest 包中提交登录表单不带按钮参数 https stackoverflow com questions 3
如何在silverlight3.0中播放Youtube视频

我正在开发一个 silverlight 应用程序我想在其中播放 youtube 视频任何建议请可供参考的任何示例或任何链接提前致谢这里有一个关于这个问题的有趣主题其中包含 SL 3 0 beta 中的一些示例 http silv
在简单的 main() 中获取rawinputdata

我正在尝试使用简单的 C 技术和 Windows 从操纵杆读取值我的目标是编写一个程序每当操纵杆信号超过预定义阈值时该程序就会发送键盘命令键盘命令将由当时处于活动状态的窗口拾取我的 C 编码技能有限因此我希望以最简单的方式完成此
如何将 Tomcat 重写阀添加到 Spring Boot 2.0 应用程序

我正在尝试在 Spring Boot 应用程序中使用 Tomcat 重写阀但是无法确定将 rewrite conf 放在哪里才能成功加载我将 Spring Boot 2 0 3 RELEASE 与 Tomcat 8 5 31 一起使用
以编程方式更改图像分辨率

我计算过如果我希望生成的图像为 A4 尺寸 600dpi 用于打印目的则需要为 7016x4961px 72dpi 所以我以编程方式生成它然后在 Photoshop 中测试它它似乎很好所以如果我调整它的大小它会获得正确的大小和
如何让FlatList充满高度？

import React from react import SafeAreaView KeyboardAvoidingView FlatList View Text TextInput Button StyleSheet from rea
配置 grunt 复制任务以排除文件/文件夹

我已经安装了 grunt 任务grunt contrib copy 我把它嵌入到我的Gruntfile js并通过加载任务grunt loadNpmTasks grunt contrib copy 目前我使用以下配置来创建一个包含 js
类在需要新实例的地方保留以前的内容

我定义了一个类以及一个创建该类实例的函数我认为这个函数应该每次都创建一个新实例然而它看起来像是继承了上次调用的内容任何人都可以解释一下吗谢谢 class test a def b self x self a append x
iframe shimming 或 ie6（及更低版本）选择 z-index 错误

嗯不知道有没有人遇到过这个问题简要说明是关于 IE6 的任何
constexpr 和奇怪的错误

我有 constexpr bool is concurrency selected const return ConcurrentGBx gt isChecked GBx is a groupbox with checkbox 我收到错误
Backbone.js 事件处理程序命名的最佳实践

假设我在视图中有一个函数当某种状态发生更改时会触发该函数最好给它起什么名字为什么状态改变状态改变状态改变时状态改变时我个人更喜欢使用onEventName名称保持 DOM 事件处理程序的本机命名约定 Like myEleme
如何将Javascript的window.find限制为特定的DIV？

是否可以在 Safari Firefox Chrome 中使用 Javascript 在特定的 div 容器中搜索给定的文本字符串我知道你可以使用window find str 搜索整个页面但是否可以将搜索区域限制为仅在 div 内 T
IntelliJ Idea groovy.lang.GroovyRuntimeException：模块版本冲突

我的 Maven 构建很好并且能够从 cli 运行 groovy 但是如果我尝试在 IntelliJ Idea 版本 15 社区版中运行我的 groovy 类则会出现以下错误 Exception in thread main jav
PyTorch 中的截断反向传播（代码检查）

我正在尝试在 PyTorch 中实现随时间截断的反向传播对于以下简单情况K1 K2 我下面有一个实现可以产生合理的输出但我只是想确保它是正确的当我在网上查找 TBTT 的 PyTorch 示例时它们在分离隐藏状态将梯度归零以及这些

PyTorch 中的截断反向传播（代码检查）

PyTorch 中的截断反向传播（代码检查） 的相关文章

随机推荐

热门标签

PyTorch 中的截断反向传播（代码检查）的相关文章