lstm(三) 模型压缩lstmp

2023-11-03

lstmp结构

对于传统的lstm而言
i t = δ ( W i x x t + W i m m t − 1 + W i c c t − 1 + b i ) i_t=\delta(W_{ix}x_t+W_{im}m_{t-1}+W_{ic}c_{t-1}+b_i) it=δ(Wixxt+Wimmt1+Wicct1+bi)
f t = δ ( W f x x t + W f m m t − 1 + W f c c t − 1 + b i ) f_t=\delta(W_{fx}x_t+W_{fm}m_{t-1}+W_{fc}c_{t-1}+b_i) ft=δ(Wfxxt+Wfmmt1+Wfcct1+bi)
c t = f t ⊙ c t − 1 + i t ⊙ g ( W c x x t + W c m m t − 1 + b c ) c_t=f_t\odot c_{t-1}+i_t\odot g(W_{cx}x_t+W_{cm}m_{t-1}+b_c) ct=ftct1+itg(Wcxxt+Wcmmt1+bc)
o t = δ ( W o x x t + W o m m t − 1 + W o c c t + b o ) o_t=\delta(W_{ox}x_t+W_{om}m_{t-1}+W_{oc}c_{t}+b_o) ot=δ(Woxxt+Wommt1+Wocct+bo)
m t = o t ⊙ h ( c t ) m_t=o_t\odot h(c_t) mt=oth(ct)
y t = ϕ ( W y m m t + b y ) y_t=\phi (W_{ym}m_t+b_y) yt=ϕ(Wymmt+by)
假设一层中的cell个数为 n c n_c nc,输入维度为 n i n_i ni,输出维度为 n o n_o no,那么对应的参数量为:
W = n c ∗ n c ∗ 4 + n i ∗ n c ∗ 4 + n c ∗ n o + n c ∗ 3 W=n_c*n_c*4+n_i*n_c*4+n_c*n_o+n_c*3 W=ncnc4+ninc4+ncno+nc3
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EmWW878Y-1618587015269)(./1479303077237.png)]
lstmp是lstm with recurrent projection layer的简称,在原有lstm基础之上增加了一个projection layer,并将这个layer连接到lstm的输入。此时的网络结构变为
i t = δ ( W i x x t + W i r r t − 1 + W i c c t − 1 + b i ) i_t=\delta(W_{ix}x_t+W_{ir}r_{t-1}+W_{ic}c_{t-1}+b_i) it=δ(Wixxt+Wirrt1+Wicct1+bi)
f t = δ ( W f x x t + W f r r t − 1 + W f c c t − 1 + b i ) f_t=\delta(W_{fx}x_t+W_{fr}r_{t-1}+W_{fc}c_{t-1}+b_i) ft=δ(Wfxxt+Wfrrt1+Wfcct1+bi)
c t = f t ⊙ c t − 1 + i t ⊙ g ( W c x x t + W c r r t − 1 + b c ) c_t=f_t\odot c_{t-1}+i_t\odot g(W_{cx}x_t+W_{cr}r_{t-1}+b_c) ct=ftct1+itg(Wcxxt+Wcrrt1+bc)
o t = δ ( W o x x t + W o r r t − 1 + W o c c t + b o ) o_t=\delta(W_{ox}x_t+W_{or}r_{t-1}+W_{oc}c_{t}+b_o) ot=δ(Woxxt+Worrt1+Wocct+bo)
m t = o t ⊙ h ( c t ) m_t=o_t\odot h(c_t) mt=oth(ct)
r t = W r m m t r_t=W_{rm}m_t rt=Wrmmt
y t = ϕ ( W y r r t + b y ) y_t=\phi (W_{yr}r_t+b_y) yt=ϕ(Wyrrt+by)
projection layer的维度设为 n r n_r nr,那么总的参数量将会变为:
W = n c ∗ n r ∗ 4 + n i ∗ n c ∗ 4 + n r ∗ n o + n c ∗ n r + n c ∗ 3 W=n_c*n_r*4+n_i*n_c*4+n_r*n_o+n_c*n_r+n_c*3 W=ncnr4+ninc4+nrno+ncnr+nc3
通过设置 n r n_r nr的大小,可以缩减总的参数量。

lstm压缩

直接训练lstmp网络结构

为了减少矩阵的参数量,重点优化,以 W i x W_{ix} Wix W i m W_{im} Wim为例,相关参数量的变化如下:
这里写图片描述

对lstm的参数做SVD压缩

参考[3],对已有的参数做压缩,主要两个矩阵:inter-layer矩阵 [ W i x , W f x , W o x , W c x ] T [W_{ix},W_{fx},W_{ox},W_{cx}]^T [Wix,Wfx,Wox,Wcx]T和recurrent 矩阵 [ W i m , W f m , W o m , W c m ] T [W_{im},W_{fm},W_{om},W_{cm}]^T [Wim,Wfm,Wom,Wcm]T
通过奇异值的设定将两个矩阵转化为三个小矩阵,其中一个小矩阵作为lstmp中projection layer的参数。

参考

[1].Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition
[2].long short-term memory recurrent neural network architectures for large scale acoustic modeling
[3].ON THE COMPRESSION OF RECURRENT NEURAL NETWORKS WITH AN APPLICATION TO LVCSR ACOUSTIC MODELING FOR EMBEDDED SPEECH RECOGNITION

后面的技术分享转移到微信公众号上面更新了,【欢迎扫码关注交流】

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

lstm(三) 模型压缩lstmp 的相关文章

  • 【MySQL安装过程中显示ddl文件缺失】

    写在前面 每个人都遇到过 无法找到 dll文件 的消息弹窗 各位 这个问题终于可以解决了 在这里你可以找到电脑上最常丢失或损坏的文件 自由下载 无任何费用 1 问题描述 安装MySQL过程中遇到的问题 如图 这些是同一类问题 都是由于缺少

随机推荐

  • Go导入本地包

    举例来说项目文件结构如 C go mod go sum main go models User go 如果想要再main go中导入models包 那么首先需要在go mod中配置 则可以用 这种方式来导入models中的文件
  • 【读书笔记】周志华 机器学习 第五章 神经网络

    第五章 神经网络 1 神经元模型 2 感知机和多层网络 3 误差反向传播算法 4 局部极值点和鞍点 5 其他神经网络 6 参考文献 1 神经元模型 在生物神经网络中 一个神经元A与其他神经元相连 当它兴奋时 会向相连的神经元B发送化学物质改
  • CTFHUB-Refer注入

    Referer Referer 指当前请求的URL是在什么地址引用的 例如在www a com index html页面中点击一个指向www b com的超链接 那么 这个www b com的请求中的Referer就是www a com i
  • 区块链入门笔记(一)区块链概括

    区块链入门 李永乐老师的两个视频可以快速帮助入门区块链 1 比特币和区块链啥原理 矿机挖矿咋回事 2 比特币交易如何防伪 私钥公钥地址啥意思 比特币发展历史 在2008年之前 主要研究是比特币的基础例如数据加密 分布式系统等等 1 中本聪在
  • Valve.VR.SteamVR_AutoEnableVR_UnityPackage.Update () (at Assets/SteamVR/Editor/SteamVR_AutoEnableVR_

    unity 中导入 Steam Vr puls 报错 Valve VR SteamVR AutoEnableVR UnityPackage Update at Assets SteamVR Editor SteamVR AutoEnable
  • 适配ios13

    更新Xcode之后 新项目需求 新建项目发现多了如图1所示两个新的文件SceneDelegate h和SceneDelegate m 运行之后发现黑屏 无论是真机还是模拟器都不行 换到iOS12的手机上则可以正常运行 查看官方文档 Scen
  • Charge IC logic Q&A

    Q Q4 关断有哪些影响 A 1 充电停止 2 Vbat 到 Vsys 通路被断开 Vbus 到 Vsys 通路不受影响 Q Q4 可能被打开的情况 A 1 手机时 shipmode 模式时插入充电器 2 清除 BATFET DIS 标志位
  • pytorch查看网络模型变量以及对应的尺寸

    今天看代码发现 自己对于网络中需要更新的参数并不是很熟悉 然后百度发现了这个方法 记录一下 在自己定义的模型下面加入这一行就可以查看了 for name param in model named parameters print name
  • 【JAVA面试题】为什么会出现4.0-3.6=0.40000001这种现象?

    这种舍入误差的主要原因是 浮点数值采用二进制系统表示 而在二进制系统中无法精确地表示分数 1 10 这 就好像十进制无法精确地表示分数 1 3 样 如果在数值计算中不允许有任何舍入误差 就应该使用 BigDecimal类 浮点数值不适用于无
  • mysql drop语句怎么用_SQL DROP 语句

    http www cnblogs com troywithblog archive 2013 05 24 3096515 html 通过使用 DROP 语句 可以轻松地删除索引 表和数据库 SQL DROP INDEX 语句 我们可以使用
  • sql delete删除的数据怎么恢复_如何恢复按下Shift + DELETE键永久删除的文件和资料夹?...

    简单删除和Shift Delete永久删除 想删除电脑上的任何文件 有以下两种方式 按 DELETE 键简单删除文件 在这种模式下 文件被移动到回收站 此时 如果我们想要恢复已删除的文件和资料夹 请打开回收站 在文件上按右键选择 还原 按
  • Proxmox VE ZFS 开启Thin Provision(精简配置)

    前言 最近在为一台PVE 的VM添加大容量磁盘时 20T 遇到out of disk 错误 遂发现 ZFS在没有开启Thin Provision前 会提前分配磁盘空间 即使一个字节也没有写入 在开启Thin Provision 后问题得到解
  • 【Unity插件】最多的插件合集

    一 前言 最近整理了一下文章 发现我分享了很多的插件 但是如果要查找某一款插件 还需要去搜索才能找到 很不方面 就想要将写过的所有的插件分享也好 教程也好 做一个汇总 然后这篇文章还会不断的更新 在有新的插件之后 熟悉我的人都知道 我对插件
  • python 逆向

    1 目标网址 https www qimingpian com finosda project pinvestment 2 抓包查看响应体 3 数据加密 4 打上断电进行调试 5 抠出代码进行运行 6 总结 function o t 就是我
  • shell sed过滤器详解

    1 Sed简介sed 是一种在线编辑器 它一次处理一行内容 处理时 把当前处理的行存储在临时缓冲区中 称为 模式空间 pattern space 接着用sed命令处理缓冲区中的内容 处理完成后 把缓冲区的内容送往屏幕 接着处理下一行 这样不
  • 怎么维护自己的电脑

    文章目录 我的电脑 日常维护措施 维护技巧 键盘 屏幕清洁 清理磁盘空间 控制温度 电脑换电池 无论是学习还是工作 电脑都是IT人必不可少的重要武器 一台好电脑除了自身配置要经得起考验 后期主人对它的维护也是决定它寿命的重要因素 你日常是怎
  • 开讲啦!0基础也能玩转飞桨开源社区

    作为cs ai学生 你是否经历过这些至暗时刻 希望快速入门深度学习 无奈网上到处都是看不懂 黑话 一遍遍计算综测小数点后四位 不断在保研边缘反复横跳 看着 洁白如新 的履历叹气 一听到 考研复试 就头皮发麻 0实习 的标签在求职时毫无竞争力
  • 主变压器新装或大修后投入运行为什么有时气体继电器会频繁动作?遇到此类问题怎样判断和处理?

    主变压器新装或大修后投入运行为什么有时气体继电器会频繁动作 遇到此类问题怎样判断和处理 答 新装或大修的变压器在加油 滤油时 会将空气带入变压器内部 若没有能够及时排出 则当变压器运行后油温会逐渐上升 形成油的对流 将内部贮有的空气逐渐排除
  • 个人信息可携带权的中国路径(线上)研讨会

    个人信息保护法 将于今年11月1日正式实施 其中首次提出了个人信息可携带权的相关法条 体现了将个人信息权利还于个人的立法思路 也为进一步释放数据要素生产力带来了新的历史机遇 为深入了解个人信息可携带权在全球范围的发展及在中国的可行落地路径
  • lstm(三) 模型压缩lstmp

    lstmp结构 对于传统的lstm而言 i t W i