循环神经网络-LSTM

2023-11-10

参考
长期以来，隐变量模型存在着长期信息保存和短期输入缺失的问题。解决这一问题的最早方法之一是长短期存储器（long short-term memory，LSTM） (Hochreiter and Schmidhuber, 1997)。它有许多与门控循环单元（ 9.1节）一样的属性。有趣的是，长短期记忆网络的设计比门控循环单元稍微复杂一些，却比门控循环单元早诞生了近20年。

从零开始实现

import torch
from torch import nn
from d2l import torch as d2l

batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

def get_lstm_params(vocab_size, num_hiddens, device):
    num_inputs = num_outputs = vocab_size

    def normal(shape):
        return torch.randn(size=shape, device=device)*0.01

    def three():
        return (normal((num_inputs, num_hiddens)),
                normal((num_hiddens, num_hiddens)),
                torch.zeros(num_hiddens, device=device))

    W_xi, W_hi, b_i = three()  # 输入门参数
    W_xf, W_hf, b_f = three()  # 遗忘门参数
    W_xo, W_ho, b_o = three()  # 输出门参数
    W_xc, W_hc, b_c = three()  # 候选记忆元参数
    # 输出层参数
    W_hq = normal((num_hiddens, num_outputs))
    b_q = torch.zeros(num_outputs, device=device)
    # 附加梯度
    params = [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc,
              b_c, W_hq, b_q]
    for param in params:
        param.requires_grad_(True)
    return params
def init_lstm_state(batch_size, num_hiddens, device):
    return (torch.zeros((batch_size, num_hiddens), device=device),
            torch.zeros((batch_size, num_hiddens), device=device))
def lstm(inputs, state, params):
    [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c,
     W_hq, b_q] = params
    (H, C) = state
    outputs = []
    for X in inputs:
        I = torch.sigmoid((X @ W_xi) + (H @ W_hi) + b_i)
        F = torch.sigmoid((X @ W_xf) + (H @ W_hf) + b_f)
        O = torch.sigmoid((X @ W_xo) + (H @ W_ho) + b_o)
        C_tilda = torch.tanh((X @ W_xc) + (H @ W_hc) + b_c)
        C = F * C + I * C_tilda
        H = O * torch.tanh(C)
        Y = (H @ W_hq) + b_q
        outputs.append(Y)
    return torch.cat(outputs, dim=0), (H, C)

vocab_size, num_hiddens, device = len(vocab), 256, d2l.try_gpu()
num_epochs, lr = 500, 1
model = d2l.RNNModelScratch(len(vocab), num_hiddens, device, get_lstm_params,
                            init_lstm_state, lstm)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)

简洁实现

num_inputs = vocab_size
lstm_layer = nn.LSTM(num_inputs, num_hiddens)
model = d2l.RNNModel(lstm_layer, len(vocab))
model = model.to(device)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习入门

RNN

LSTM

python

循环神经网络-LSTM 的相关文章

如何在 PyCharm 中“查看”/突出显示制表符和空格以检查缩进？

这可能听起来很愚蠢但我还是个新手有没有明确的方法可以发现 PyCharm 中的制表符或空格位于错误的位置或者甚至以可视方式显示所有制表符和空格我只是花了很长时间在函数的 Def 行寻找无效语法错误的问题我原以为这可能仍然是一些
在 Mac OS 10.14.2 上的 Python 3.7 中安装 JPype1 时出错

我在系统中安装 JPype1 时遇到错误我正在使用Python 3 7 JPype1 是 Jaydebeapi 的依赖项 pip install Jpype1 以下是错误消息 Collecting jpype1 Using cached
Python ImageTk.PhotoImage 使用 alpha 通道缓慢加载 png

我编写了一个小程序来加载和显示图像一切正常直到我到达示例中的 png 文件 shade png 显示这张小图片需要七七秒 PhotoImage 是否有错误或者我错过了一些范围这是我的示例代码 from PIL import Ima
如何向数据添加填充以使其可以接受 pycrypto 库中的 AES256 加密算法

有人可以告诉我如何向数据添加填充使其可以接受 pycrypto 库 Python 中的 AES256 加密算法提前非常感谢看着文档 http www dlitz net software pycrypto doc 看来要由图书馆用户自
Python：用中值替换异常值

我有一个 python 数据框其中有一些异常值如果这些值不存在的话我想用数据的中值替换它们 id Age 10236 766105 11993 288 9337 205 38189 88 35555 82 39443 75 10762
如何修复错误“错误：命令错误，退出状态 1：python。”尝试使用 pip 安装 django-heroku 时[重复]

这个问题在这里已经有答案了我正在尝试使用 pip 安装 django heroku 但它一直遇到错误我看到一些建议告诉我要确保 Heroku 中的 Python 版本是最新的我已经这么做了推送到 Heroku master 后我运
使用 Flask 从 Jinja 模板中的 settings.py 文件获取变量

假设我有 settings py 文件其中包含一堆常量将来可能会更多如何访问 Jinja 模板中的这些变量 Flask 会自动将您的应用程序的配置包含在标准上下文 http flask pocoo org docs templatin
Python（openpyxl）：将数据从一个excel文件转移到另一个（模板文件）并用另一个名称保存，同时保留模板

我有一个templateexcel 文件名为template xlsx其中有许多张我想从单独的地方复制数据 csv文件到第一页template xlsx 命名为data 并将新文件另存为result xlsx同时保留原来的模板文件我想粘
在Python中将距离矩阵转换为成对距离列表[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设Python中有以下距离矩阵 0 1 2 3 0 0 1 4 8 1 1 0 3 7 2 4 3 0 3 3 8 7 3 0 我想
如何在 django 表单中设置自定义 HTML 属性？

我有一个 Django 表单它是页面的一部分假设我有一个字段 search input forms CharField u Search word required False 我只能通过模板访问它 form search input
Python - 在先前已在全局范围内查找的函数内重新分配名称

为什么我在下面的第三个代码中出现错误但在前两个代码中却没有出现错误我使用的是 Python 3 6 0 Anaconda 4 3 1 64 位 Jupyter Code 1 c 100 def fib c 20 a c print a
如何让MagicMock返回多个值

我想模拟一个图书馆 matplotlib对于它的价值并且遇到一个问题当调用模拟并期望返回元组时它会失败有一个更好的方法吗 Python 3 7 2 default Jan 13 2019 12 50 15 Clang 10 0 0
ctypes.ArgumentError：不知道如何转换参数

我在C库中定义了一个函数如下所示 int Test char str1 int id1 char str2 float val float ls 我想在Python中使用它所以我编写了以下Python代码 str1 a str2 b i
Python：选择多个已安装模块版本之一

在我的系统上我多次安装了多个模块举个例子 numpy 1 6 1安装在标准路径中 usr lib python2 7 dist packages 我有一个更新版本numpy 1 8 0安装于 local python lib pytho
继承类中的python __init__方法[重复]

这个问题在这里已经有答案了我想为子类提供一些额外的属性而不必显式调用新方法那么有没有办法给继承的类一个 init 不重写的类型方法 init 父类的方法我编写下面的代码纯粹是为了说明我的问题因此属性等的命名很糟糕 class in
在 PyQt 中使用 Windows 7 任务栏功能

我正在寻找有关将一些新的 Windows 7 任务栏功能集成到我的 PyQt 应用程序中的信息具体来说如果已经存在使用新进度指示器的可能性 see here http www petri co il wp content uploads
使用 pyinstaller 制作的可执行文件出现运行时错误

所以我使用 Pygame 制作了一个游戏现在我想用它制作一个可执行文件首选独立可执行文件所以我用它来制作可执行文件 pyinstaller onefile main py 编译顺利但运行时出现错误这是错误 Traceback mo
python 中的优化标准化

在优化过程中对输入参数进行归一化使它们处于同一数量级通常会很有帮助这样收敛效果会更好例如如果我们想要最小化 f x 而合理的近似值是 x0 1e3 1e 4 则将 x0 0 和 x0 1 归一化到大约相同的数量级可能会有所帮助
使用 PyCharm 分析 Django

即使在开发环境中我的应用程序也相当慢所以我想找出是什么导致它变慢以便我可以尝试修复它我了解调试工具栏根据它的报告数据库查询和下载的源都不是问题所以它一定是业务逻辑但是我无法使用 Django 服务器运行 PyCharm 分
pylint：忽略 rcfile 中的多个

在我的 django 项目中我使用的是外部编写的应用程序但编写得很糟糕现在我想从我的 pylint 报告中忽略这个应用程序但是我无法让 pylint 忽略它 Pylint 已经忽略了南方的迁移如下所示 MASTER ignore

随机推荐

WEB攻击与防御

这里列举一些常见的攻击类型与基本防御手段 XSS攻击跨站脚本 Cross site scripting 简称XSS 把JS代码注入到表单中运行例如在表单中提交含有可执行的JS的内容文本如果服务器端没有过滤或转义这些脚本而这些脚本由通过
判断带头结点的循环双链表是否对称

题目设计一个算法用于判断带头结点的循环双链表是否对称分析循环双链表的特点是当前结点方便找到前后节点且尾指针指向第一个结点对称性判断第一个结点和最后一个结点的值是否相等如果相等再判断第二个结点和倒数第二个结点以此类推从
[论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例

娜璋带你读论文系列主要是督促自己阅读优秀论文及听取学术讲座并分享给大家希望您喜欢由于作者的英文水平和学术能力不高需要不断提升所以还请大家批评指正非常欢迎大家给我留言评论学术路上期待与您前行加油前一篇介绍CCS2019的P
电子设计大赛作品_电子设计大赛

为了进一步提高学生对电子和科技的兴趣培养学生的动手能力和想象能力增强学生的团队合作意识提高学生分析和解决问题的能力现决定开展电子设计大赛电子设计大赛详情一参赛对象全体全日制在校大学生 1 3人自由组队并指定队长一名可自由
华为OD机试 - 简易内存池（Java）

题目描述请实现一个简易内存池根据请求命令完成内存分配和释放内存池支持两种操作命令 REQUEST和RELEASE 其格式为 REQUEST 请求的内存大小表示请求分配指定大小内存如果分配成功返回分配到的内存首地址如果内存不足
java-map-put方法源码分析

HashMap是由数组链表和红黑树组成的数据结构而其中put方法可以算的上HashMap中的核心方法这个方法给我们展示了HashMap的大部分精髓我们首先来看一下map的核心变量 transient Node
2022年一起努力应对互联网寒冬吧，5G音视频时代还不学NDK开发吗

前言找工作还是需要大家不要紧张有我们干这一行的接触人本来就不多难免看到面试官会紧张主要是因为怕面试官问的问题到不上来那时候不要着急答不上了的千万不然胡扯一些直接就给面试官说这块我还没接触到以后如果工作当中遇到的话我可以很快的
i2c 编程接口

1 通信接口 i2c发送或者接收一次数据都以数据包 struct i2c msg 封装 struct i2c msg u16 addr 从机地址 u16 flags 标志 define I2C M TEN 0x0010 十位地址标志 def
Vert.X通过Hoverfly满足服务虚拟化

服务虚拟化是一种用于模拟基于组件的应用程序的依赖关系行为的技术 Hoverfly是用Go语言编写的服务虚拟化工具可让您模拟HTTP S 服务它是一个代理它使用存储的响应来响应HTTP S 请求并假装它是真正的对应对象食蚜蝇Java
使用 IO 流读取本地文件（两种方式）

使用IO 流读取本地文件 public class FileReadWrite public static void main String args FileReader fr null try 1 创建读取文件 fr new FileR
[Manjaro] OpenGL 配合着色器实现光线跟踪之引入光线

概述本文介绍 GLFW GLAD 在 RayTracing in one weekend 的实现实验环境 Manjaro Linux 22 0 0 整体思路使用基于屏幕空间的光线跟踪算法每个像素点代表一个光线使用 GLSL 着色器
在IntelliJ IDEA中查看代码覆盖率

在IDEA中使用Junit测试时时常需要考虑代码覆盖率以下是查看代码覆盖率的方法在test class右键选择 more run debug gt Run Test with Coverage 使用时发现会出现没有Branch Cov
ubuntu上安装最新的docker社区版

如果安装有老的docker先删除老的版本 sudo apt get remove docker docker engine docker io 老的镜像存储网络信息保留在 var lib docker 下可以自行删除新的社区版本叫d
矩阵的转置怎么编程用C语言,将一个3x3的矩阵转置，怎样用c语言写？

include
学建模时常遇到的问题（看专业解答)

常做到一半就卡住那是不是操作时有问题没有处理好选择面数选不中选择线选不中还只能用最初始的命令这些有一种可能就是你操作模型时按到了空格键然后界面就会锁死按空格键就阔以取消啦还有一个情况就是进入可编辑模式之后对模型进行点
权限提升-MYSQL数据库提权

基础知识 1 需要了解掌握的权限后台权限网站权限数据库权限接口权限系统权限域控权限等 2 权限获取方法简要归类说明后台权限 SQL注入数据库备份泄露默认或弱口令等获取帐号密码进入网站权限后台提升至网站权限 RCE或文件
zookeeper到nacos的迁移实践

本文已收录 https github com lkxiaolou lkxiaolou 欢迎star 技术选型公司的RPC框架是dubbo 配合使用的服务发现组件一直是zookeeper 长久以来也没什么大问题至于为什么要考虑换掉zook
azkaban上传zip报错:Error Chunking during uploading files to db

上传时页面报 Instalation Failed Error Chunking during uploading files to db 查看web server日志 2021 11 26 11 20 38 253 0800 INFO P
vue图片上传组件

vue图片上传组件最近在做项目的时候顺便补充了一下公司项目的公共组件库刚刚手头事情告一段落就来做个笔记首先来看看最终效果 1 不允许删除 2 允许用户删除显示删除按钮实现的效果就是上图显示内容接下来说说组件布局那部分直接上代码
循环神经网络-LSTM

参考长期以来隐变量模型存在着长期信息保存和短期输入缺失的问题解决这一问题的最早方法之一是长短期存储器 long short term memory LSTM Hochreiter and Schmidhuber 1997 它有许多与门

循环神经网络-LSTM

从零开始实现

简洁实现

循环神经网络-LSTM 的相关文章

随机推荐

热门标签