为什么 CuDNNLSTM 在 keras 中比 LSTM 有更多的参数？

2023-12-08

我一直在尝试计算 Keras 中 LSTM 单元的参数数量。我创建了两个模型，一个使用 LSTM，另一个使用 CuDNNLSTM。

模型的部分摘要如下

CuDNNLSTM 模型：

    _________________________________________________________________
    Layer (type)                 Output Shape              Param # 
    =================================================================
    embedding (Embedding)        (None, None, 300)         192000
    _________________________________________________________________
    bidirectional (Bidirectional (None, None, 600)         1444800

LSTM模型


    Layer (type)                 Output Shape              Param #
    =================================================================
    embedding_1 (Embedding)      (None, None, 300)         192000    
    _________________________________________________________________  
    bidirectional (Bidirectional (None, None, 600)         1442400

LSTM 中的参数数量遵循互联网上提供的 lstm 参数计算公式。然而，CuDNNLSTM 有 2400 个额外参数。

这些额外参数的原因是什么？

code

    import tensorflow.compat.v1 as tf
    tf.disable_v2_behavior()

    from tensorflow.compat.v1.keras.models import Sequential
    from tensorflow.compat.v1.keras.layers import CuDNNLSTM, Bidirectional, Embedding, LSTM

    model = Sequential()
    model.add(Embedding(640, 300))
    model.add(Bidirectional(<LSTM type>(300, return_sequences=True)))

LSTM 参数可以分为 3 类：输入权重矩阵 (W)、循环权重矩阵 (R)、偏差 (b)。 LSTM 单元的部分计算是W*x + b_i + R*h + b_r where b_i是输入偏差和b_r是经常性的偏见。

如果你让b = b_i + b_r，您可以将上面的表达式重写为W*x + R*h + b。这样做，您就不再需要保留两个单独的偏差向量（b_i and b_r），相反，您只需要存储一个向量（b).

cuDNN 坚持原始数学公式并存储b_i and b_r分别地。 Keras 没有；它只存储b。这就是为什么 cuDNN 的 LSTM 比 Keras 的参数更多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Keras

LSTM

Bidirectional

为什么 CuDNNLSTM 在 keras 中比 LSTM 有更多的参数？的相关文章

在 Keras 上使用回调 Tensorboard 时出现 AttributeError：“Model”对象没有属性“run_eagerly”

我已经使用 Keras 的功能 API 构建了一个模型当我将 Tensorboard 实例添加到 model fit 函数的回调中时它会抛出一个错误 AttributeError Model object has no attribut
将 Dropout 与 Keras 和 LSTM/GRU 单元结合使用

在 Keras 中您可以像这样指定 dropout 层 model add Dropout 0 5 但对于 GRU 单元您可以将 dropout 指定为构造函数中的参数 model add GRU units 512 return se
可视化 TFLite 图并获取特定节点的中间值？

我想知道是否有办法知道 tflite 中特定节点的输入和输出列表我知道我可以获得输入输出详细信息但这不允许我重建发生在Interpreter 所以我要做的是 interpreter tf lite Interpreter model
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
异常：加载数据时 URL 获取失败

我正在尝试设置我的机器来运行 Tensorflow 2 我从未使用过 Tensorflow 只是下载了 Python 3 7 我不确定这是否是我的机器的问题我按照上面列出的安装说明进行操作TensorFlow 的网站 https www
验证 Transformer 中多头注意力的实现

我已经实施了MultiAttention head in Transformers 周围有太多的实现所以很混乱有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org
使用 Keras np_utils.to_categorical 的问题

我正在尝试将整数的 one hot 向量数组制作为 keras 将能够使用的 one hot 向量数组来拟合我的模型这是代码的相关部分 Y train np hstack np asarray dataframe output vecto
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
无法使用 Keras 中的 multi_gpu_model 后的 model.save 保存模型

升级到 Keras 2 0 9 后我一直在使用multi gpu model实用程序但我无法使用保存我的模型或最佳权重 model save path 我得到的错误是类型错误无法pickle模块对象我怀疑访问模型对象时存在一些问题
keras 模型拟合：ValueError：无法找到可以处理输入的数据适配器：，

我正在构建一个简单的 CNN 模型用于多类分类训练和测试数据位于data path根据所需的类子目录flow from directory的函数ImageDataGenerator 这是我根据数据构建和训练模型的代码 from tenso
在keras自定义损失中使用层输出

我正在 Keras 中开发自定义损失函数我需要第一层输出我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax
如何从 Pandas DataFrame 转换为 Tensorflow BatchDataset 以进行 NLP？

老实说我想弄清楚如何转换数据集格式 pandasDataFrame或 numpy 数组转换为简单文本分类张量流模型可以训练用于情感分析的形式我使用的数据集类似于 IMDB 包含文本和标签正面或负面我看过的每个教程要么以不同的方式
在按顺序读取的多个特征文件上训练 Keras 模型以节省内存

当我尝试读取大量功能文件时我遇到了内存问题见下文我想我应该分割训练文件并按顺序读取它们做到这一点的最佳方法是什么 x train np load path features x train npy y train np load p
PyTorch LSTM 中的“隐藏”和“输出”有什么区别？

我无法理解 PyTorch 的 LSTM 模块以及类似的 RNN 和 GRU 的文档关于输出它说输出输出 h n c n 输出 seq len batch hidden size num directions 包含RNN最后一层的
Keras如何在Relu激活函数中使用max_value

keras activation py 中定义的 Relu 函数为 def relu x alpha 0 max value None return K relu x alpha alpha max value max value 它有一个
Keras conv1d 层参数：过滤器和 kernel_size

我对 keras 的 conv1d 层中的这两个参数感到非常困惑 https keras io layers convolutional conv1d https keras io layers convolutional conv1d 文
如何屏蔽 PyTorch 权重参数中的权重？

我正在尝试在 PyTorch 中屏蔽强制为零特定权重值我试图掩盖的权重是这样定义的def init class LSTM MASK nn Module def init self options inp dim super LSTM
如何为模型提供“输出列表”？

很抱歉这个标题但我无法在这里提出更好的描述我正在尝试应用批量训练模型该模型应该有 13 个完全连接的输出层每个输出层只有两个节点但如所述完全连接构建模型的输出如下所示 outputs list for i in range nu
Keras 显示 GPU 训练速度没有任何改进（部分 GPU 使用？！）

我正在尝试在我的 Jupyter Notebook 的 AWS p2 xlarge 实例上的 GPU 而不是 CPU 上训练我的模型我正在使用tensorflow gpu后端仅tensorflow gpu已安装并在中提到requirem
打印出网络架构中每一层的形状

在 Keras 中我们可以如下定义网络有什么办法可以输出每层之后的形状例如我想打印出以下形状inputs在定义行之后inputs 然后打印出形状conv1在定义行之后conv1 etc inputs Input 1 img rows

随机推荐

R 中的非线性离散优化

我有一个简单的实际上是经济学标准非线性约束discreteR 中要解决的最大化问题但遇到了麻烦我找到了解决方案parts问题的一部分非线性最大化离散最大化但不是所有问题的并集问题就在这里消费者想要购买三种产品凤梨香蕉
Greasemonkey（使用 waitForKeyElements 实用程序）- 如何在屏幕上显示特定元素后调用函数

继续我的这个问题我一直在写这个用户脚本对于网站 metal archives com 打开乐队页面时 example 您会进入唱片 gt 完整唱片我的脚本适用于 DISCOGRAPHY 选项卡及其子选项卡 COMPLETE DISCOG
类 android.location.Location 未定义无参构造函数

我一直在尝试简单地将一个包含两个变量一个字符串和一个位置的类推送到 firebase 并读取它但我收到了此错误 com google firebase database DatabaseException Class android
如何解决 nHibernate 集合初始化不佳的问题

nHibernate3 从 EAV 数据模式中检索 4xxx 记录当 nHibernate 或 NET 第一次初始化这些集合时我们会看到严重的惩罚后续调用的执行效率似乎更高在 SQL Server Management Studio
如何在android中使用ACTION_SEND一起共享图像+文本？

我想在android中使用ACTION SEND一起共享文本图像我使用下面的代码我只能共享图像但我不能与之共享文本 private Uri imageUri private Intent intent imageUri Uri pa
仅使用名字查询全名数据存储属性的最佳过滤器是什么？

我有这个数据存储模型 class Person db Model person name db StringProperty required True nacionality db StringProperty required True
将reduce函数转换为适用于IE

好吧几个月前我得到了一些帮助想出了一个解决方案来记录数组中的元素数量循环遍历多个数组并记录每个元素的计数这个解决方案对我来说非常有效直到我意识到它正在使用ES6这是不支持的IE 11 我尝试将其转换为使用函数而不是箭头函数以便它
为什么属性表中的图标用这么少的颜色呈现？

我正在创建一个属性表外壳扩展并希望有一个小图标来将我的属性选项卡与标准系统选项卡分开不幸的是我的图标几乎完全呈现为灰色原图在属性表选项卡中起初我以为这是我的问题但后来我发现 TortoiseSVN 似乎也有同样的问题 Windo
从 C# 向控制台应用程序传递参数

我需要从另一个 C 应用程序运行控制台应用程序如何从我的 C 应用程序加载参数并将参数传递给控制台应用程序以便执行控制台应用程序 System Diagnostics ProcessStartInfo 有帮助吗使用 ProcessSt
如何在 JavaScript 中将对象转换为自定义字符串？

我想重载对象到字符串的转换以便以下示例将输出字符串 TEST 而不是 object Object 我该怎么做呢 function TestObj this sValue TEST function Test var x new TestO
如何使用 ngcordova 文件传输插件将拍摄的图像传输到我的 ftp

我正在尝试将图像上传到我的 FTP 到目前为止我所取得的成就是在这方面plnkr 我的科尔多瓦文件传输看起来像 scope upload function var options fileKey file fileName gopi chu
Java Lambda 表达式错误

在我的 Java 8 代码中 public ChangePersonsName String email final String password final String wantedUsername final String uuid
log4j 创建的文件中的主机名

我在 Linux 机器 RHEL 5 4 上使用 java 1 4 2 我们的应用程序使用 log4j 进行日志记录我希望某些附加程序将创建文件名中包含主机名的文件主机名不应进行硬编码而应使用类似于here 参见 log4j 分钟所
pySerial inWaiting 返回错误的字节数

我有一个简单的程序来测试串行功能我的串行设备对两个输入做出反应如果用户输入 a 则会响应 fg 如果用户输入任何其他字符字节它将以 z 响应如果我将 b 发送到串行设备它将返回 z 当我发送 a 时它应该返回 f 和 g 因此
如何在 Visual Studio (2013) 中将默认的新项目扩展名从 .h 更改为 .hpp

我正在尝试更改默认的新项目扩展名 h to hpp 这篇文章的图片表明了我的意思我已经让它可以正常工作了这种方法通过改变 the VC vcprojectitems hfile h文件名至h文件 hpp HFile h to HFile
无法找到或服务资源

我正在 Glassfish 4 服务器上使用 Java EE 6 和 Primefaces 制作一个 Web 应用程序我越来越频繁地遇到同样烦人的错误我尝试用谷歌搜索这个问题但还没有找到有效的解决方案有时应用程序执行时完全没有问题
Jquery $.ajax() 调用 webmethod

我以前从未使用过 ajax 如果您发现任何错误请告诉我我使用 jQuery ajax 来调用带有 JSON 的 webmethod webmethod 的简单定义应该如下所示 WebMethod public static bool M
如何搜索具有值的键？例如获取值为“somevalue”的所有 KEYS

redis gt SMEMBERS CO 1 A 1 1 2 2 redis gt SMEMBERS CO 2 A 1 1 2 5 3 6 redis gt SMEMBERS CO 3 A 1 5 redis gt SMEMBERS CO
MongoError 未知顶级运算符：$set

当我这样做时 return scores updateQ id score id set partId partId activityId activityId unset topicType topicId courseId strict
为什么 CuDNNLSTM 在 keras 中比 LSTM 有更多的参数？

我一直在尝试计算 Keras 中 LSTM 单元的参数数量我创建了两个模型一个使用 LSTM 另一个使用 CuDNNLSTM 模型的部分摘要如下 CuDNNLSTM 模型 Layer type Output Shape Param em

为什么 CuDNNLSTM 在 keras 中比 LSTM 有更多的参数？

为什么 CuDNNLSTM 在 keras 中比 LSTM 有更多的参数？ 的相关文章

随机推荐

热门标签

为什么 CuDNNLSTM 在 keras 中比 LSTM 有更多的参数？的相关文章