Pytorch — LSTM (nn.LSTM & nn.LSTMCell)

2023-11-13

nn.LSTM

在LSTM中，c和h的size是一样的
torch.nn.LSTM()
参数
– input_size
– hidden_size
– num_layers
– bias
– batch_first
– dropout
– bidirectional

输入
– input (seq_len, batch, input_size)
– h_0 (num_layers * num_directions, batch, hidden_size)
– c_0 (num_layers * num_directions, batch, hidden_size)

输出
– output (seq_len, batch, num_directions * hidden_size)
– h_n (num_layers * num_directions, batch, hidden_size)
– c_n (num_layers * num_directions, batch, hidden_size)
import  torch
from  torch import nn
 
lstm = nn.LSTM(input_size=512, hidden_size=256, num_layers=2, batch_first=True)
print(lstm)
x = torch.randn(40,25,512)
output,(h_n,c_n) = lstm(x)
print(output.shape,h_n.shape,c_n.shape)
lstm中走几个时间步time_step = seq_len

num_layers

num_layers表示堆叠几层LSTM，如果是2就相当于堆叠2层。默认是1

即如果是2层的话就是这样

注意，num_layers的个数对输出的output的size没有影响，但是会影响输出的h_n和c_n，像上面例子中，如果num_layers=1那h_n是[1,40,256], 如果num_layers=2那h_n是[2,40,256]......., c_n也是

batch_first

batch_first指的是，Pytorch的LSTM层默认输入和输出都是batch在第二维，而我们的习惯都是batch在第一维，所以用这个来告诉模型我们的batch维是在第一维的

但是输出的h_n和c_n的size中batch并不会提前到第一维，注意。

output, h_n和c_n的关系

h_n：最后一个时间步的输出，即 h_n = output[:, -1, :]（一般可以直接输入到后续的全连接层）

c_n：最后一个时间步 LSTM cell 的状态（一般用不到）
import torch
import torch.nn as nn

lstm = nn.LSTM(input_size=2, hidden_size=3, batch_first=True)
input = torch.randn(5,4,2)
h0 = torch.randn(1, 5, 3)
c0 = torch.randn(1, 5, 3)
output, (hn, cn) = lstm(input, (h0, c0))
如果是两层

可以看到，如果是多层，那么output还是只会保留最后一层，而h_n则会多层都保留下来

如果是双向

可以看到，双向的output就是把两个方向的给concat到一起了，就是方向是反的

双向LSTM(BiLSTM)

很简单，只要加个bidirectional的参数就行了
import  torch
from  torch import nn

lstm = nn.LSTM(input_size=512, hidden_size=256, num_layers=2, batch_first=True, bidirectional=True)
print(lstm)
x = torch.randn(40,25,512)
out,(h_n,c_n) = lstm(x)
print(out.shape,h_n.shape,c_n.shape)
但是需要注意一点，双向RNN的话，输出的output的size会是2*hidden_size。

h_n和c_n的size不会变，但是他们的第一维会变，第一维是num_layers, 如果双向的话还要乘个2

如果用了Bi-LSTM，参数量会变为两倍
from torch import nn

def print_params(model):
    total_params = sum(p.numel() for p in model.parameters())
    print(f'{total_params:,} total parameters.')
    print(f'{total_params/(1024*1024):.2f}M total parameters.')

lstm = nn.LSTM(input_size=512, hidden_size=256, batch_first=True, num_layers=2)
lstm_bi = nn.LSTM(input_size=512, hidden_size=256, batch_first=True,bidirectional=True, num_layers=2)
for i in [lstm,lstm_bi]:
    print_params(i)

nn.LSTMCell

第二种方式，灵活性更大的cell，人为来决定每一次喂数据

单层

import  torch
from  torch import nn
import numpy as np

print('one layer lstm')
cell=nn.LSTMCell(input_size=100, hidden_size=20)
h=torch.zeros(3,20)
c=torch.zeros(3,20)
x = torch.randn(10,3,100)
for xt in x: 
	h,c = cell(xt, [h,c])

print('h.shape: ',h.shape)
print('c.shape: ',c.shape)

双层

import  torch
from  torch import nn
import numpy as np

x = torch.randn(10,3,100)
print('two layer lstm')
cell1=nn.LSTMCell(input_size=100, hidden_size=30)
cell2=nn.LSTMCell(input_size=30, hidden_size=20)
h1=torch. zeros(3,30)
c1=torch. zeros(3,30)
h2=torch. zeros(3,20)
c2=torch. zeros(3,20)
for xt in x: 
	h1,c1=cell1(xt,[h1, c1])
	h2,c2=cell2(h1,[h2, c2])
print('h.shape: ',h2.shape)
print('c.shape: ',c2.shape)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

LSTM

Pytorch — LSTM (nn.LSTM & nn.LSTMCell) 的相关文章

使用 pytorch 获取可用 GPU 内存总量

我正在使用 google colab 免费 Gpu 进行实验并想知道有多少 GPU 内存可供使用 torch cuda memory allocated 返回当前占用的 GPU 内存但我们如何使用 PyTorch 确定总可用内存 PyT
Tensorflow：如何使用dynamic_rnn从LSTMCell获取中间细胞状态（c）？

默认情况下函数dynamic rnn仅输出隐藏状态称为m 对于每个时间点可以通过如下方式获得 cell tf contrib rnn LSTMCell 100 rnn outputs tf nn dynamic rnn cell inp
我可以使用逻辑索引或索引列表对张量进行切片吗？

我正在尝试使用列上的逻辑索引对 PyTorch 张量进行切片我想要与索引向量中的 1 值相对应的列切片和逻辑索引都是可能的但是它们可以一起吗如果是这样怎么办我的尝试不断抛出无用的错误类型错误使用 ByteTensor 类型的
如何平衡 GAN 中生成器和判别器的性能？

这是我第一次使用 GAN 我面临着判别器多次优于生成器的问题我正在尝试重现PA模型来自本文 http openaccess thecvf com content ICCV 2017 papers Sajjadi EnhanceNet Si
在 PyTorch 中原生测量多类分类的 F1 分数

我正在尝试在 PyTorch 中本地实现宏 F1 分数 F measure 而不是使用已经广泛使用的sklearn metrics f1 score https scikit learn org stable modules generat
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
张量流 LSTM 模型中的 NaN 损失

以下网络代码应该是经典的简单 LSTM 语言模型一段时间后开始输出 nan 损失在我的训练集上这需要几个小时而且我无法在较小的数据集上轻松复制它但在认真的训练中这种情况总是会发生 Sparse softmax with cros
使 CUDA 内存不足

我正在尝试训练网络但我明白了我将批量大小设置为 300 并收到此错误但即使我将其减少到 100 我仍然收到此错误更令人沮丧的是在 1200 个图像上运行 10 epoch 大约需要 40 分钟有什么建议吗错了我怎样才能加快这
Keras：嵌入 LSTM

在 LSTM 的 keras 示例中用于对 IMDB 序列数据进行建模 https github com fchollet keras blob master examples imdb lstm py https github com
如何计算 CNN 第一个线性层的维度

目前我正在使用 CNN 其中附加了一个完全连接的层并且我正在使用尺寸为 32x32 的 3 通道图像我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积最大池层的输入我希望能够计算第一个线性层的尺寸仅给出
Pytorch ValueError：优化器得到一个空参数列表

当尝试创建神经网络并使用 Pytorch 对其进行优化时我得到了 ValueError 优化器得到一个空参数列表这是代码 import torch nn as nn import torch nn functional as F fro
张量流：简单 LSTM 网络的共享变量错误

我正在尝试构建一个最简单的 LSTM 网络只是想让它预测序列中的下一个值np input data import tensorflow as tf from tensorflow python ops import rnn cell im
如何使用pytorch构建多任务DNN，例如超过100个任务？

下面是使用 pytorch 为两个回归任务构建 DNN 的示例代码这forward函数返回两个输出 x1 x2 用于大量回归分类任务的网络怎么样例如 100 或 1000 个输出对所有输出例如 x1 x2 x100 进行硬编码绝对
为什么 Keras 的 train_on_batch 在第二个 epoch 产生零损失和准确率？

我正在使用一个大数据集所以我尝试使用 train on batch 或适合 epoch 1 model Sequential model add LSTM size input shape input shape return seque
Tensorflow 的 LSTM 输入

I m trying to create an LSTM network in Tensorflow and I m lost in terminology basics I have n time series examples so X
在 Pytorch 中估计高斯模型的混合

我实际上想估计一个以高斯混合作为基本分布的归一化流所以我有点被火炬困住了但是您可以通过估计 torch 中高斯模型的混合来在代码中重现我的错误我的代码如下 import numpy as np import matplotlib p
LSTM 批次与时间步

我按照 TensorFlow RNN 教程创建了 LSTM 模型然而在这个过程中我对批次和时间步长之间的差异如果有的话感到困惑并且我希望得到帮助来澄清这个问题教程代码见下文本质上是根据指定数量的步骤创建批次 wi
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
在Pytorch中计算欧几里得范数..理解和实现上的麻烦

我见过另一个 StackOverflow 线程讨论计算欧几里德范数的各种实现但我很难理解特定实现的原因如何工作该代码可以在 MMD 指标的实现中找到 https github com josipd torch two sample b
Pytorch 与 joblib 的 autograd 问题

将 pytorch 的 autograd 与 joblib 混合似乎存在问题我需要并行获取大量样本的梯度 Joblib 与 pytorch 的其他方面配合良好但是与 autograd 混合时会出现错误我做了一个非常小的例子显示串行

随机推荐

Docker 初学者指南——如何创建您的第一个 Docker 应用程序

您是开发人员想从 Docker 入手这篇文章是为你而写的在简要介绍什么是 Docker 以及为什么要使用它之后您将能够使用 Docker 创建您的第一个应用程序什么是Docker Docker是 Docker Inc 开发的一款免
使用MXNet完成一个基于FCN的盲道实时语义分割

使用MXNet完成一个基于FCN的盲道识别语义分割一点说明基本原理测试集效果数据标注训练基本设置读入数据网络构建开始训练测试一点说明前段时间根据gluon的教程动手学深度学习和同学项目实地拍摄的盲道图片完成了一个基于
最强自动化测试框架Playwright（17）- 模拟接口

模拟接口介绍 Web API 通常作为 HTTP 终结点实现 Playwright提供了API来模拟和修改网络流量包括HTTP和HTTPS 页面所做的任何请求包括 XHR 和获取请求都可以被跟踪修改和模拟使用Playwright
Ubuntu查看usb设备驱动／usb以太网卡设备驱动

step1 lsusb 查看当前有哪些usb设备注意插在usb口上的外接设备一定能通过lsusb显示出来但是不一定能通过lspci显示出来即使这个设备的驱动已经安装了由于我要查看我的有线网卡的驱动 lsusb命令执行完成以后可知
ORA-12505：TNS:listener does not currently know of SID given in connect descriptor

Oracle安装好之后默认的listener是localhost 现在为了在局域网内能够访问其他电脑访问的时候提示如下错误 ORA 12505 TNS listener does not currently know of SID g
八大排序总结---- 数据结构 (图解法) 面试必会! ! !

八大排序总结目录一插入排序 InsertSort 二希尔排序 ShellSort 三选择排序 SelectSort 四堆排序 HeapSort 五冒泡排序 BubbleSort 六快速排序 QuickSort 1 hoare
至少12亿元收支差，分析运营商7大数据产品应用

本文不讨论运营商在大数据的应用上暂时的颓势也不评击其拥有金库却见不着有数的着的商业模式或许是因为运营商们探索时间起步较晚也可能由于运营商对于如何开放用户数据还没想明白又或者是历史遗留的用户数据还存在业务线条分割区域分割数据分散情
学会这7个常见问题和答案，让你下一次JavaScript面试获得高分

在本文中我将涵盖您在JavaScript 面试中可能遇到的最常见问题并提供详细的答案和示例以帮助您在竞争中脱颖而出无论您是初学者还是经验丰富的开发人员本指南都会让您有信心打动面试官并找到工作 1 什么是 JavaScript 它与
用R建立岭回归和lasso回归

1 分别使用岭回归和Lasso解决薛毅书第279页例6 10的回归问题例6 10的问题如下输入例题中的数据生成数据集并做简单线性回归查看效果 cement lt data frame X1 c 7 1 11 11 7 11 3 1
软件工程专业毕设题目选题推荐

文章目录 0 前言 1 题目推荐 2 开题指导 2 1 起因 2 2 如何避坑重中之重 2 3 为什么这么说呢 2 4 难度把控 2 5 题目名称 3 最后 0 前言这是学长亲手整理的软件工程毕设选题系列第三篇都是经过学长精心审核的
自制ChatGPT批量生成文章多线程多Key Python脚本

本文转载自自制ChatGPT批量生成文章多线程多Key Python脚本更多内容请访问钻芒博客 https www zuanmang net 简单多线程GPT3 5模型特有需求生成文章后会先保存txt到文章中程序跑完之后会在生
windows11 BitLocker 强制解锁

windows11 BitLocker 强制解锁打开命令提示符 1 输入 manage bde off C 运行后系统将会对C盘数据解密 2 输入 manage bde status C 查看C盘解密进度注也可在控制面板BitLoc
基于springboot+vue的校园二手交易市场

一项目背景介绍校园二手交易市场是大学生生活中的重要组成部分它为学生提供了一个便捷的方式来买卖物品然而传统的校园二手交易方式存在着信息不对称交易风险高等问题为了解决这些问题基于Spring Boot和Vue的校园二手交易市场系
SAP HANA Studio管理工具管理视图

本文主要介绍SAP HANA Studio管理工具管理视图相关操作步骤方法以及使用说明文档原文地址 SAP HANA Studio管理工具管理视图
插值算法 —— Lerp, NLerp, SLerp

一 Lerp Linear interpolation 线性插值记为 L e r p v 0
cuobjdump的使用

n n desktop nvcc stack overflow cu n n desktop cuobjdump sass a out Fatbin elf code arch sm 20 code version 1 7 producer
聊一聊DDR3中的ODT（On-die termination）

聊一聊DDR3中的ODT On die termination
实现提示框可拖拽（针对antd vue中的a-modal提示框）

在 utils 中新建 directives js 文件 import Vue from vue v drag modal 弹窗拖拽 Vue directive drag modal el bindings vnode gt Vue nex
Nakagami-m 信道

Nakagami m 分布是日本学者Nakagami 在1960年的一篇论文中提出的快衰落模型 Nakagami m 的表达式我们遵照参考文献 1 的说法1 假设接收信号表示如下 r n g
Pytorch — LSTM (nn.LSTM & nn.LSTMCell)

nn LSTM 在LSTM中 c和h的size是一样的 torch nn LSTM 参数 input size hidden size num layers bias batch first dropout bidirectional 输入

Pytorch — LSTM (nn.LSTM & nn.LSTMCell)

nn.LSTM

output, h_n和c_n的关系

双向LSTM(BiLSTM)

nn.LSTMCell

Pytorch — LSTM (nn.LSTM & nn.LSTMCell) 的相关文章

随机推荐

热门标签