LSTM+attention代码原理详解

2023-05-16

本文将LSTM+attention用于时间序列预测
在这里插入图片描述

class lstm(torch.nn.Module):
    def __init__(self, output_size, hidden_size, embed_dim, sequence_length):
        super(lstm, self).__init__()
        self.output_size = output_size
        self.hidden_size = hidden_size
        #对应特征维度
        self.embed_dim = embed_dim
        self.dropout = 0.8
        #对应时间步长
        self.sequence_length = sequence_length
        #1层lstm
        self.layer_size = 1
        self.lstm = nn.LSTM(self.embed_dim,
                            self.hidden_size,
                            self.layer_size,
                            dropout=self.dropout,
                            )

        self.layer_size = self.layer_size
        self.attention_size = 30
        #（4，30）
        self.w_omega = Variable(torch.zeros(self.hidden_size * self.layer_size, self.attention_size))
        #（30）
        self.u_omega = Variable(torch.zeros(self.attention_size))
        #将隐层输入全连接
        self.label = nn.Linear(hidden_size * self.layer_size, output_size)

LSTM输入输出说明

1. 输入数据包括input,(h_0,c_0):
input就是shape==(seq_length,batch_size,input_size)的张量
h_0的shape==(num_layers×num_directions,batch,hidden_size)的张量
，它包含了在当前这个batch_size中每个句子的初始隐藏状态，num_layers就是LSTM的层数，如果bidirectional=True,num_directions=2,否则就是１，表示只有一个方向，
c_0和h_0的形状相同，它包含的是在当前这个batch_size中的每个句子的初始细胞状态。
==h_0,c_0如果不提供，那么默认是０==

2. 输出数据包括output,(h_n,c_n):
output的shape==(seq_length,batch_size,num_directions×hidden_size),
它包含的LSTM的最后一层的输出特征(h_t),ｔ是batch_size中每个句子的长度.
h_n.shape==(num_directions × num_layers,batch,hidden_size)
c_n.shape==h_n.shape
h_n包含的是句子的最后一个单词的隐藏状态，c_n包含的是句子的最后一个单词的细胞状态，所以它们都与句子的长度seq_length无关。
output[-1]与h_n是相等的，因为output[-1]包含的正是batch_size个句子中每一个句子的最后一个单词的隐藏状态，注意LSTM中的隐藏状态其实就是输出，cell
state细胞状态才是LSTM中一直隐藏的，记录着信息

def attention_net(self, lstm_output):
    #print(lstm_output.size()) = (squence_length, batch_size, hidden_size*layer_size)

    output_reshape = torch.Tensor.reshape(lstm_output, [-1, self.hidden_size*self.layer_size])
    #print(output_reshape.size()) = (squence_length * batch_size, hidden_size*layer_size)
    #tanh(H)
    attn_tanh = torch.tanh(torch.mm(output_reshape, self.w_omega))
    #print(attn_tanh.size()) = (squence_length * batch_size, attention_size)
    #张量相乘
    attn_hidden_layer = torch.mm(attn_tanh, torch.Tensor.reshape(self.u_omega, [-1, 1]))
    #print(attn_hidden_layer.size()) = (squence_length * batch_size, 1)

    exps = torch.Tensor.reshape(torch.exp(attn_hidden_layer), [-1, self.sequence_length])
    #print(exps.size()) = (batch_size, squence_length)

    alphas = exps / torch.Tensor.reshape(torch.sum(exps, 1), [-1, 1])
    #print(alphas.size()) = (batch_size, squence_length)

    alphas_reshape = torch.Tensor.reshape(alphas, [-1, self.sequence_length, 1])
    #print(alphas_reshape.size()) = (batch_size, squence_length, 1)

    state = lstm_output.permute(1, 0, 2)
    #print(state.size()) = (batch_size, squence_length, hidden_size*layer_size)

    attn_output = torch.sum(state * alphas_reshape, 1)
    #print(attn_output.size()) = (batch_size, hidden_size*layer_size)

    return attn_output

def forward(self, input):
    # input = self.lookup_table(input_sentences)
    input = input.permute(1, 0, 2)
    # print('input.size():',input.size())
    s,b,f=input.size()
    h_0 = Variable(torch.zeros(self.layer_size, b, self.hidden_size))
    c_0 = Variable(torch.zeros(self.layer_size, b, self.hidden_size))
    print('input.size(),h_0.size(),c_0.size()',input.size(),h_0.size(),c_0.size())
    lstm_output, (final_hidden_state, final_cell_state) = self.lstm(input, (h_0, c_0))
    attn_output = self.attention_net(lstm_output)
    logits = self.label(attn_output)
    return logits

在计算attention时主要分为三步:


第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；
第二步一般是使用一个softmax函数对这些权重进行归一化；
最后将权重和相应的键值value进行加权求和得到最后的attention。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

LSTM+attention代码原理详解的相关文章

时间序列数据和 LSTM 中分类的实体嵌入

我正在尝试解决时间序列问题简而言之对于每个客户和材料 SKU代码我过去都下了不同的订单我需要建立一个模型来预测每个客户和材料下一次订单之前的天数我想做的是在 Keras 中构建一个 LSTM 模型其中对于每个客户和材料我有 5
如何清楚地解释Keras中units参数的含义？

我想知道 LSTM 在 Keras 中是如何工作的在本教程 https machinelearningmastery com time series prediction lstm recurrent neural networks py
Keras根据阈值将中间层的输出设置为0或1

我有一个模型其中有分类和回归之类的部分我使用乘法层合并它们在执行乘法之前我想根据阈值将分类部分的输出设置为 0 或 1 我尝试将 Lambda 层与自定义函数一起使用如下所示但是我遇到了各种错误并且我对这些错误一无所知
基于在线鲁棒主成分分析（RPCA）模型，结合长短期记忆（LSTM）循环网络的商品需求预测（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码数据
Seq2Seq 模型在几次迭代后学会仅输出 EOS 令牌 (<\s>)

我正在创建一个接受过训练的聊天机器人康奈尔电影对话语料库 https www cs cornell edu cristian Cornell Movie Dialogs Corpus html using NMT https github
LSTM中的input_shape和batch_input_shape有什么区别

这只是设置同一事物的不同方式还是它们实际上具有不同的含义和网络配置有关系吗在一个简单的例子中我无法观察到以下之间的任何区别 model Sequential model add LSTM 1 batch input shape Non
如何处理极长的LSTM序列长度？

我有一些数据以非常高的速率大约每秒数百次采样对于任何给定实例这会导致平均序列长度很大约 90 000 个样本整个序列有一个标签我正在尝试使用 LSTM 神经网络将新序列分类为这些标签之一多类分类然而使用具有如此大序列长度
Tensorflow - LSTM - “张量”对象不可迭代

您好我正在对 lstm rnn 单元使用以下函数 def LSTM RNN X istate weights biases Function returns a tensorflow LSTM RNN artificial neural
使用 conv1D “检查输入时出错：期望 conv1d_input 有 3 个维度，但得到形状为 (213412, 36) 的数组”

我的输入只是一个 csv 文件237124行和37列首先36列作为特征 The last列是一个二进制类标签我正在尝试在 conv1D 模型上训练我的数据我尝试过建立一个一层 CNN 但我有一些问题编译器输出 ValueError
TfLite LSTM 模型

我还没有找到任何可以使用的预训练 lstm 模型 tfLite 是否提供了任何预训练的 lstm 模型我尝试创建 tflite 模型但在转换时遇到问题您能提供创建 tfLite 模型的确切脚本吗 tfLite 是否有任何用于创建最新版
使用张量流理解 LSTM 模型进行情感分析

我正在尝试使用 Tensorflow 学习 LSTM 模型进行情感分析我已经经历了LSTM模型 http colah github io posts 2015 08 Understanding LSTMs 以下代码 create sent
InvalidArgumentError：索引[0,0] = -1 不在 [0, 10) 中

它与 MLP 一起进行二元分类效果很好然而在 LSTM 和卷积中它给出了InvalidArgumentError 我发现 y 需要重塑我就这么做了我尝试了 x 的所有正值并且模型运行良好那么负值有什么问题呢数据在代码中给出
如何使用有状态 LSTM 和 batch_size > 1 布置训练数据

背景我想在 Keras 中对有状态 LSTM 进行小批量训练我的输入训练数据位于一个大矩阵 X 中其维度为 m x n 其中 m number of subsequences n number of time steps per s
无法挤压 dim[1]，预期维度为 1，得到 499

我正在尝试制作一个自动编码器但遇到了上述错误查看 Stack Exchange 上的其他帖子并没有帮助这是完整的错误 InvalidArgumentError Can not squeeze dim 1 expected a dime
Keras：嵌入 LSTM

在 LSTM 的 keras 示例中用于对 IMDB 序列数据进行建模 https github com fchollet keras blob master examples imdb lstm py https github com
PyTorch LSTM：运行时错误：无效参数 0：张量的大小必须匹配，维度 0 除外。维度 1 为 1219 和 440

我有一个基本的 PyTorch LSTM import torch nn as nn import torch nn functional as F class BaselineLSTM nn Module def init self su
如何设置 1dCNN+LSTM 网络（Keras）的输入形状？

我有以下想法要实施 Input gt CNN gt LSTM gt Dense gt Output 输入有 100 个时间步长每个步长有一个 64 维特征向量 A Conv1D层将在每个时间步提取特征 CNN 层包含 64 个滤波器每个
为什么不使用均方误差来解决分类问题？

我正在尝试使用 LSTM 解决一个简单的二元分类问题我正在尝试找出网络的正确损失函数问题是当我使用二元交叉熵作为损失函数时与使用均方误差 MSE 函数相比训练和测试的损失值相对较高经过研究我发现二元交叉熵应该用于分类问题 MS
LSTM - 一段时间后预测相同的常数值

我有一个变量我想预测未来 30 年的情况不幸的是我没有很多样品 df pd DataFrame FISCAL YEAR 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 199
PyTorch LSTM 中的“隐藏”和“输出”有什么区别？

我无法理解 PyTorch 的 LSTM 模块以及类似的 RNN 和 GRU 的文档关于输出它说输出输出 h n c n 输出 seq len batch hidden size num directions 包含RNN最后一层的

随机推荐

Android随手指移动的DragView(一)——获取偏移量

想要DragView随着手指移动首先得获取偏移量 xff0c 获取偏移量一般有2种思路 xff08 1 xff09 xff0c 通过event getX 64 Override span class hljs keyword public
Android随手指移动的DragView(二)——移动DragView

获取偏移量offsetX和offsetY后 xff0c 可以通过以下几种方式移动DragView xff1a xff08 1 xff09 xff0c 通过layout实现DragView的移动 span class hljs functio
android之onNewIntent()用法

onNewIntent 用法知识点 xff1a 1 intent的显示和隐式启动 xff1b 2 activity对intent的action的相应 xff1b 3 onNewIntent 和singleTask xff08 栈唯一模式
IBM MQ两个队列管理器之间的通信

本文为转载原文链接 2个队列管理器之间的通信前提 1 确保两边的队列管理器的名称不能相同 xff08 如果名称相同将无法通信 xff0c 在连接的时候虽然发送通道和接收通道都是可以运行的 xff0c 但是当放入测试消息的时候会报2087
kotlin-android-extensions过时了，迁移到ViewBinding

前言回顾历史 xff0c kotlin android extensions插件让我们省去了很多findViewById的代码 xff0c 直接使用控件id操作控件不过在Android Studio 4 1及以上IDE新建项目的时候 x
“下列软件包有未满足的依赖关系“解决方案

有读者反映 xff0c 安装aptitude后宕机 xff0c 请各位酌情配置 xff0c 这只是个解决方案根据各位反应的情况 xff0c 会在适配的同时会修改掉一些必要的核心库 xff0c 从而导致严重的系统问题大家可以先寻找最优方案
NanoDet尝试日志（Windows10 + pytorch1.2 + torchvision 0.4.0 + CUDA 10.2）

作者源码 xff1a https github com RangiLyu nanodet 按照作者的要求来说 xff0c torch的版本需要 1 3 0 xff0c 一方面由于项目需求 xff0c 另一方面由于torch官网未给出1 3
ubuntu安装opencv3.4.13的血与泪（一些坑）

只提tips xff0c 不做教程 xff1a 0 darknet中出现stream stop xff01 一定先安装ffmpeg conda install c conda forge ffmpeg 并在编译时进行 D xff0c 参考d
Windows10下编译opencv以及yolov4、yolov4_cpp_dll.dll

编译的安装顺序是 xff0c CUDA 43 CUDNN xff08 安装包与压缩包不要删除 xff0c 不要删除 xff0c 不要删除 xff0c 防止踩坑的后备 xff09 然后是VisualStdio xff0c 其次是OPENCV
darknet添加新层以编译yolo_cpp_dll-------shufflenet模块

首先感谢AlexeyAB大神提供的YOLOv4源码 xff0c 以及gmayday1997大神提供的split以及shuffle模块源码 xff0c 本文以两位的工作进行yolov4版本中轻量化模块shufflenet模块的添加首先寻找到
TensorBoard出现错误Requirement.parse(‘google-auth＜2,＞=1.6.3‘))

在YOLOv5的训练之中 xff0c 可以采用tensorboard工具进行训练过程的查看 xff0c 从而观察模型的收敛情况在even的上一级目录运行 xff1a tensorboard logdir 61 34 exp4 34 发现出
Scene-Graph-Benchmark.pytorch服务器部署

未采用md编辑 xff0c 望见谅目录序言部署数据集制作数据准备 xff1a VG数据集数据转换 xff08 参考issue xff09 预测 xff08 还未使用模型预测 xff0c 后续添加 xff09 引用 xff08 T
[Ubuntu] Argument list too long的问题

问题溯源在使用rm rf时 xff0c 文件夹内部大概有4万多的图像文件 xff0c 造成列表长度过长 xff0c 无法删除此时参考了强哥大佬使用管道及xarg的方法顺利完成 span class token operator spa
ORC识别

OCR xff08 Optical Character Recognition 光学字符识别 xff09 是指对输入图像进行分析识别处理 xff0c 获取图像中文字信息的过程 xff0c 具有广泛的应用场景 xff0c 例如场景图像文字识别
解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎［作者：常雷］

作者 xff1a 常雷博士 xff0c Pivotal中国研发中心研发总监 xff0c HAWQ并行Hadoop SQL引擎创始人 xff0c Pivotal HAWQ团队负责人 xff0c 曾任EMC高级研究员专注于大数据与云计算领域
cv2.error: OpenCV(4.4.0) C:\Users\appveyor\AppData\Local\Temp\1\pip-req-build-wwma2wne\opencv\module

可能图片路径中有中文 xff0c 比如在桌面 xff0c 当然和转义字符也有问题 xff0c 用windows的多试下 39 r和中文路径改用 img 61 cv2 imdecode np fromfile img dtype 61 np
Permission denied: ‘.xls‘

先把打开的xls关掉
yolov5模型框架详解

yolov5和yolov4很像 Mosaic数据增强 1 每次读取四张图片 2 分别对四张图片进行翻转缩放色域变化等 xff0c 并且按照四个方向位置摆好 3 进行图片的组合和框的组合随机缩放随机裁剪随机排布的方式进行拼接 xff
detectron2 ImportError: cannot import name ‘_C‘ from ‘detectron2‘

在detectron2 中执行 python setup py build develop 即可
LSTM+attention代码原理详解

本文将LSTM 43 attention用于时间序列预测 class lstm torch nn Module def init self output size hidden size embed dim sequence length

LSTM+attention代码原理详解

LSTM+attention代码原理详解 的相关文章

随机推荐

热门标签

LSTM+attention代码原理详解的相关文章