pytorch源码解读——RNN/LSTM篇

2023-11-16

文章的字母中：

b: batch_size
t: time_step
n: num_feature
h: hidden_size

假设输入数据维度input = (b, t, n)
所设计的LSTM模型如下：

class MYLSTM(nn.Module):

    def __init__(self, input_size, hidden_size, out_size):
        super(MYLSTM, self).__init__()
        self.hidden_size = hidden_size
        self.input_size = input_size
        
        self.lstm = nn.LSTM(
            input_size=self.input_size + self.hidden_size,
            hidden_size=self.hidden_size,
            num_layers=1,
            batch_first=True,
        )

        self.out = nn.Linear(self.hidden_size, out_size)

    def forward(self, x):
        hidden, cell = Variable(torch.zeros(1, x.size(0), self.hidden_size)),\
                       Variable(torch.zeros(1, x.size(0), self.hidden_size))
        for i in range(x.size(1)):
            curx = x[:, i, :].unsqueeze(1)
            curx = torch.cat((curx, hidden.permute(1, 0, 2)), dim=2)
            _, lstm_state = self.lstm(curx, (hidden, cell))
            hidden, cell = lstm_state[0], lstm_state[1]
            outs = self.out(hidden)
        return outs

由于num_layer=1，因此hidden,cell的维度均为(1, b, h)
对于每一个时间步，将其与hidden拼接，得到(b, 1, h + n)维度的curx，此对应下图中红框 torch.cat
这个整体作为torch中LSTM单元的输入
在modules\rnn.py中，存在这样一段代码：

        if mode == 'LSTM':
            gate_size = 4 * hidden_size
        elif mode == 'GRU':
            gate_size = 3 * hidden_size
        else:
            gate_size = hidden_size
        
		self._all_weights = []
        for layer in range(num_layers):
            for direction in range(num_directions):
                layer_input_size = input_size if layer == 0 else hidden_size * num_directions

                w_ih = Parameter(torch.Tensor(gate_size, layer_input_size))
                w_hh = Parameter(torch.Tensor(gate_size, hidden_size))
                b_ih = Parameter(torch.Tensor(gate_size))
                b_hh = Parameter(torch.Tensor(gate_size))
                layer_params = (w_ih, w_hh, b_ih, b_hh)

                suffix = '_reverse' if direction == 1 else ''
                param_names = ['weight_ih_l{}{}', 'weight_hh_l{}{}']
                if bias:
                    param_names += ['bias_ih_l{}{}', 'bias_hh_l{}{}']
                param_names = [x.format(layer, suffix) for x in param_names]

                for name, param in zip(param_names, layer_params):
                    setattr(self, name, param)
                self._all_weights.append(param_names)

这里的符号跟我上面的图略有不符，因为我习惯于纵向拼接，放下面这个原始的LSTM状态公式可能更好对应一些：
gate
首先根据LSTM网络的特点，或直接看状态计算公式，共有四个地方用到了拼接的输入即计算，因此gate_size = 4 * hidden_size，即相当于把上面的四个Wh和Wx各自合并在一起，各自偏置也合并，方便定义域运算，这个后面还会拆分，分别用于各部分的计算
而由于我们每次的输入均为(b, 1, n + h)，因此layer_input_size = n + h
这样所有需要用到的权重和偏置均已求得，用_all_weights进行包装

此后，同样是在modules\rnn.py文件中

			func = self._backend.RNN(
            self.mode,
            self.input_size,
            self.hidden_size,
            num_layers=self.num_layers,
            batch_first=self.batch_first,
            dropout=self.dropout,
            train=self.training,
            bidirectional=self.bidirectional,
            dropout_state=self.dropout_state,
            variable_length=is_packed,
            flat_weight=flat_weight
        )
        output, hidden = func(input, self.all_weights, hx, batch_sizes)

func将所有参数重新包装并计算，计算过程在_functions\rnn.py中：

    def forward(input, weight, hidden, batch_sizes):
        if batch_first and not variable_length:
            input = input.transpose(0, 1)

        nexth, output = func(input, hidden, weight, batch_sizes)

        if batch_first and not variable_length:
            output = output.transpose(0, 1)

        return output, nexth

上面提到input = (b, 1, n + h)，第一维为batch_size, 即batch_first = True, 于是先将其前两维转置，即此时input = (1, b, n + h)
第一维的1实际代表了LSTM的层数与是否双向，因此此后的运算仅针对单层LSTM进行运算，即此后的input = (b, n + h)
_functions\rnn.py

	hx, cx = hidden
    gates = F.linear(input, w_ih, b_ih) + F.linear(hx, w_hh, b_hh)

    ingate, forgetgate, cellgate, outgate = gates.chunk(4, 1)

    ingate = torch.sigmoid(ingate)
    forgetgate = torch.sigmoid(forgetgate)
    cellgate = torch.tanh(cellgate)
    outgate = torch.sigmoid(outgate)

    cy = (forgetgate * cx) + (ingate * cellgate)
    hy = outgate * torch.tanh(cy)

    return hy, cy

input = (b, n + h), w_hh = (4 * h, h), w_ih = (4* h, n + h)
F.linear是线性操作，无论是CNN、RNN都很常用，其定义如下：

def linear(input, weight, bias=None):
    r"""
    Applies a linear transformation to the incoming data: :math:`y = xA^T + b`.

    Shape:

        - Input: :math:`(N, *, in\_features)` where `*` means any number of
          additional dimensions
        - Weight: :math:`(out\_features, in\_features)`
        - Bias: :math:`(out\_features)`
        - Output: :math:`(N, *, out\_features)`
    """
    if input.dim() == 2 and bias is not None:
        # fused op is marginally faster
        return torch.addmm(bias, input, weight.t())

    output = input.matmul(weight.t())
    if bias is not None:
        output += bias
    return output

比较容易看懂，返回input * weight.t() + bias这样的矩阵
于是经过线性变换后，返回的gates = (b, 4 * h)
然后通过chunk()函数，将gates的第一维切分为四份
于是ingate, forgetgate, cellgate, outgate = (b, h)
分别对ingate forgetgate outgate作sigmoid，对cellgate作tanh，注意 * 运算是点积，而不是矩阵乘法，前述代码配合下图饮用更佳，感觉均能一一对应：
lstm
如此即结束了第一个时间步的hidden、cell计算，有多少个时间步，循环迭代即可，最后一步的hidden即可作为最终输出

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pytorch源码解读——RNN/LSTM篇的相关文章

从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可

随机推荐

解决微信小程序报错：[渲染层网络层错误] Failed to load local image resource

一场景写了一个图片点击全屏展示的组件页面图片 gt 点击 gt 打开全屏遮罩层显示大图片 1控制元素展示的变量 data photoShow false 2图片点击函数 onClick const url null e curren
Shell的read 读取控制台输入、read的使用

文章目录 1 read 读取控制台输入 1 1基本语法 1 2read的使用如果想看更详细的Shell总结请到我之前写的博客https blog csdn net Redamancy06 article details 126048299
com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 2 of 2-byte

com sun org apache xerces internal impl io MalformedByteSequenceException Invalid byte 2 of 2 byte UTF 8 sequence 分析这个问
YOLO-----关于正负样本、Loss、IOU、怎样去平衡正负样本的问题？

关于正负样本 Loss IOU 怎样去平衡正负样本的问题 1 关于正负样本 2 Loss计算 3 IOU GIOU DIOU CIOU 4 怎样去平衡正负样本的问题先整理一下anchor的概念常用的anchor定义 Faster R C
MySQL 8 安装教程

MySQL 8发布了据说相比MySQL 5速度提升了2倍今天来搞一搞MySQL 8 一下载MySQL 8 1 首先当然是下载安装包了下载地址点击下载MySQL 8 这个页面相信大家都熟悉我就不多说了 2 将下载的压缩包解压解压
全网最简洁的mpy-cross教程

大家知道我一向精干不喜欢搞花儿的如果去mpy官网看mpy cross的相关资料估计又得绕蒙跟我来保证你三分钟学会但是本文不涉及原理第一 mpy cross是干嘛滴答把py文件转成mpy系统读的mpy文件术语咱不懂叫交叉
H3C交换机如何配置SNMP协议？

1 使用telnet 登陆设备 system view snmp agent snmp agent community read public snmp agent sys infoversion all dis cur save 保存 Y
操作系统原理大题

一地址变换和求FAT表大小某一页表内容自0 7依次为03 07 0B 11 1A 1D 20 22 请计算页面大小为1K和4K时的逻辑地址134D对应的物理地址首先将134D转换为二进制数为 0001001101001101 1k为
【2024届校招内推：NTAA84y】腾讯云智研发中心

云智校招新官网查看最新岗位情况云智研发中心2024届校园招聘官网内推码 NTAA84y 云智研发公司2024届校园招聘启动啦腾讯旗下子公司八大类岗位五大城市全面开放在喜欢的城市做喜欢的工作期待正能量共担当实干家的你加入云
dumpsys meminfo 的原理和应用

什么是dumpsys meminfo Android中通过命令dumpsys meminfo package name pid 查看指定进程的内存使用情况通过输出的信息可以看出来应用在内存哪里分配出现了问题比如native heap
华为服务器sn号查询网站,linux 查询服务器sn

linux 查询服务器sn 内容精选换一换 Linux云服务器变更规格时可能会发生磁盘挂载失败的情况因此变更规格后需检查磁盘挂载状态是否正常本节操作介绍变更规格后检查磁盘挂载状态的操作步骤以root用户登录云服务器执行以下命
top 命令

NAME top display Linux tasks SYNOPSIS top hv abcHimMsS d delay n iterations p pid pid a 按内存使用排序 b 批处理 c 显示完整的命令 d 指定间隔时间
串

文章目录定义抽象类型定义存储结构顺序存储定长顺序存储结构堆式顺序存储结构链式存储串的链式存储结构定义串是一种内容受限的线性表串字符串由零个或多个字符组成的有限序列子串串的任意个连续的字符组成的子序列主串包含
深度学习部署--tensorflow 用c++调用前向

使用TensorFlow C API构建线上预测服务第一篇 Oct 9 2017 tensorflow 文章目录 1 使用Python接口训练模型 2 源码编译TensorFlow 3 使用TensorFlow C API编写预测代码 3
线下零售场景的消费者商品场景终端数字升级

按照识别的精度排序确实是虹膜指纹人脸的识别精度依次降低但人脸识别可以根据摄像头的提升而提升双目摄像头结构光摄像头 TOF等等这个上升空间很大从应用性来看你现在让所有的用户都去提取虹膜信息指纹信息这个很难不现实而我们
微信小游戏 can't find variable: window

最近测试微信小游戏的时候需要加入一些SDK代码在加入这些文件到项目并require相应的库的时候小游戏开发者工具一直报错 can t find variable window 查找了相关资料 https developers weix
逐点插入法实现 Delaunary三角网（附 C++ 代码）

逐点插入法作为一种经典的凸闭包收缩算法其思想是首先找到包含数据区域的最小凸包边形并从该多边形开始从外到内形成Delaunary三角网因此其每次插入一个新的点就会删除相应的三角形来构建性的三角网这个过程中常常伴随着大量的查询计算过程
flutter 从A到B，然后在从B返回A页面，A页面刷新数据

flutter 从A到B 然后在从B返回A页面 A页面刷新数据实现代码如下 Navigator push context MaterialPageRoute builder context gt NoticePage then value
解决java.lang.IllegalArgumentException: Could not resolve placeholder xx.xx.addr 的问题，思路：一定是配置文件问题

今天启动SpringBoot遇到一个问题提示 java lang IllegalArgumentException Could not resolve placeholder xx xx addr in value xx xx addr
pytorch源码解读——RNN/LSTM篇

文章的字母中 b batch size t time step n num feature h hidden size 假设输入数据维度input b t n 所设计的LSTM模型如下 class MYLSTM nn Module def

pytorch源码解读——RNN/LSTM篇

pytorch源码解读——RNN/LSTM篇 的相关文章

随机推荐

热门标签

pytorch源码解读——RNN/LSTM篇的相关文章