为什么 RNN 需要两个偏置向量？

2024-04-14

In Pytorch RNN 实现 http://pytorch.org/docs/master/nn.html?highlight=rnn#torch.nn.RNN，有两个偏差，b_ih and b_hh。为什么是这样？它与使用一种偏差有什么不同吗？如果是，怎么办？会影响性能或效率吗？

实际上，之前（已接受）的答案是错误的。仅由于与 CuDNN 兼容，才需要第二个偏差参数。见同代码文档 https://pytorch.org/docs/master/_modules/torch/nn/modules/rnn.html#RNNBase:

class RNNBase(Module):
    ...
    def __init__(self, ...):
        ...
        w_ih = Parameter(torch.empty((gate_size, layer_input_size), **factory_kwargs))
        w_hh = Parameter(torch.empty((gate_size, real_hidden_size), **factory_kwargs))
        b_ih = Parameter(torch.empty(gate_size, **factory_kwargs))
        # Second bias vector included for CuDNN compatibility. Only one   <---  this
        # bias vector is needed in standard definition.                   <--- comment
        b_hh = Parameter(torch.empty(gate_size, **factory_kwargs))
        ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

为什么 RNN 需要两个偏置向量？的相关文章

关于 Pytorch 中的奇数图像尺寸

因此我目前正在构建一个 2 通道也称为双通道卷积神经网络用于测量 2 个二进制图像之间的相似度我遇到的问题如下我的输入图像为 40 x 50 经过 1 个卷积层和 1 个池化层例如后输出大小为 18 x 23 那么如何
使用 torch.stack()

t1 torch tensor 1 2 3 t2 torch tensor 4 5 6 t3 torch tensor 7 8 9 torch stack t1 t2 t3 dim 1 在实现 torch stack 时我无法理解如何对不
如何在 PyTorch 数据加载器中将 RGB 图像转换为灰度图像？

我已经从 MNIST 数据集中下载了一些示例图像 jpg格式现在我正在加载这些图像来测试我的预训练模型 transforms to apply to the data trans transforms Compose transforms
在 Pytorch 中执行优化时如何对变量应用界限？

我正在尝试使用 Pytorch 进行非凸优化试图最大化我的目标因此在 SGD 中最小化我想限制因变量 x gt 0 并且 x 值的总和小于 1000 我认为我已经以斜坡惩罚的形式正确实施了惩罚但我正在努力解决 x 变量的边界问题在
PyTorch：如何使用 DataLoaders 自定义数据集

如何利用torch utils data Dataset and torch utils data DataLoader根据您自己的数据不仅仅是torchvision datasets 有没有办法使用内置的DataLoaders他们使用的
PyTorch 中的截断反向传播（代码检查）

我正在尝试在 PyTorch 中实现随时间截断的反向传播对于以下简单情况K1 K2 我下面有一个实现可以产生合理的输出但我只是想确保它是正确的当我在网上查找 TBTT 的 PyTorch 示例时它们在分离隐藏状态将梯度归零以及这些
PyTorch：tensor.cuda（）和tensor.to（torch.device（“cuda：0”））之间有什么区别？

在 PyTorch 中以下两种将张量或模型发送到 GPU 的方法有什么区别 Setup X np array 1 3 2 3 2 3 5 6 1 2 3 4 X model X torch DoubleTensor X Method
通过 Conda 安装 PyTorch

目标使用 pytorch 和 torchvision 创建 conda 环境 Anaconda 导航器 1 8 3 python 3 6 MacOS 10 13 4 我尝试过的在Navigator中创建了一个新环境尝试安装 pyto
RuntimeError：维度指定为 0 但张量没有维度

我试图使用 MNIST 数据集实现简单的 NN 但我不断收到此错误将 matplotlib pyplot 导入为 plt import torch from torchvision import models from torchvisi
预训练 Transformer 模型的配置更改

我正在尝试为重整变压器实现一个分类头分类头工作正常但是当我尝试更改配置参数之一 config axis pos shape 即模型的序列长度参数时它会抛出错误 Reformer embeddings position embeddin
查找张量中沿轴的非零元素的数量

我想找到沿特定轴的张量中非零元素的数量有没有 PyTorch 函数可以做到这一点我尝试使用非零 http pytorch org docs master torch html highlight nonzero torch nonzer
如何在 google colab 中运行 matlab .m 文件

我目前正在尝试运行这个存储库https github com Fanziapril mvfnet https github com Fanziapril mvfnet这需要一个步骤 Run the Matlab ModelGeneratio
运行时错误：CUDA 错误：设备端断言已触发 - 训练 LayoutLMV3 时

我正在训练最新版本的layoutLMv3模型但在开始训练时trainer train 出现以下错误请帮我解决它我使用的是 v100 4 GPU RuntimeError Traceback most recent call last
删除 Torch 张量中的行

我有一个火炬张量如下 a tensor 0 2215 0 5859 0 4782 0 7411 0 3078 0 3854 0 3981 0 5200 0 1363 0 4060 0 2030 0 4940 0 1640 0 6025 0
torch-1.1.0-cp37-cp37m-win_amd64.whl 在此平台上不受支持的滚轮

我在开发 RNN 时需要使用 pyTorch 每当我尝试安装它时我都会收到一条错误消息指出 torch 1 1 0 cp37 cp37m win amd32 whl 在此平台上不受支持 pip3安装https download pyto
在 PyTorch 中原生测量多类分类的 F1 分数

我正在尝试在 PyTorch 中本地实现宏 F1 分数 F measure 而不是使用已经广泛使用的sklearn metrics f1 score https scikit learn org stable modules generat
torch.mm、torch.matmul 和 torch.mul 有什么区别？

阅读完 pytorch 文档后我仍然需要帮助来理解之间的区别torch mm torch matmul and torch mul 由于我不完全理解它们所以我无法简明地解释这一点 B torch tensor 1 1207 0 3137
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
如何计算 CNN 第一个线性层的维度

目前我正在使用 CNN 其中附加了一个完全连接的层并且我正在使用尺寸为 32x32 的 3 通道图像我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积最大池层的输入我希望能够计算第一个线性层的尺寸仅给出

随机推荐

C++ 构造函数和析构函数顺序

我正在尝试有关基类和成员构造和销毁的代码并且我对构造函数和析构函数的某些顺序感到困惑这段代码的输出是 Base1 constructor Member1 constructor Member2 constructor Derived1
Numpy einsum 给出错误：折叠索引 'q' 的操作数 0 中的维度不匹配 (4 != 2)

我正在尝试使用 numpy 的 einsum 计算以下内容 import numpy as np tmp ee np ones 2 4 4 tmp ij np ones 2 2 4 2 4 2 print tmp ee shape prin
打开新窗口而不关注它[重复]

这个问题在这里已经有答案了我有这样的情况我尝试打开一个窗口window open功能新窗口在主窗口前面打开我如何在主窗口后台打开它而不关注新窗口可以做这样的事吗你所寻求的叫做弹出窗口 http www javascriptk
java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0

我无法解决这个异常我已经阅读了 hadoop 文档以及我能找到的所有相关的 stackoverflow 问题我的 fileSystem mkdirs 抛出 Exception in thread main java lang Unsat
如何创建仅本地主机的Java套接字？

我有一个 Java 服务器它使用 ServerSocket 使用 Thrift 打开一个套接字该服务器在 Obj c 的本地计算机上有一个与 Java 服务器通信的客户端一切都发生在本地主机上现在java服务器在网络上也是可见的我
Python：使用另一个命令的输入

我想知道如何管理 python 脚本中另一个命令的输入 Example cat myfile txt my python script py 我的脚本如何管理来自 cat 命令的输入流如何从此管道命令获取输入多谢实现此目的的一种简单且
在 PHP 中使用 CURL 发布以“@”开头的文本数据

我使用 CURL 在 PHP 中发布数据如下所示 curl setopt ch CURLOPT POSTFIELDS args 其中 args 参数数组问题在于其中一个参数的值以开头根据 CURL 文档这意味着我将发送一个文件但
我可以在 iOS 上使用 MongoDB 来替代 CoreData 吗？

我刚刚开始阅读 MongoDB 和 CouchDB 等 NoSQL 技术我有兴趣知道是否可以使用 MongoDB 或任何 NoSQL 技术来替代 Core Data 应用程序核心数据应用程序可能需要很长时间来学习和实现特别是如果您的应
谷歌云视觉 API - Python

我似乎找不到在哪里添加 API 密钥也找不到在我的 google 云视觉代码中找到 google 凭证文件的位置 import argparse import base64 import httplib2 import validator
找不到概念模型类型

我在 MVC3 项目 A 和 B 中有两个实体数据模型我最近添加了新的实体数据模型 B 来处理一些新功能问题是现在现有代码已停止工作并且在尝试访问实体模型 A 中的代码时出现以下错误错误信息是找不到概念模型类型 project m
意外删除表时恢复 cassandra 集群数据

如您所知 Cassandra 集群具有复制功能可以防止数据丢失即使集群中的某些节点发生故障也是如此但是如果管理员不小心删除了一个包含大量数据的表并且该命令已经由集群中的所有副本执行这是否意味着您丢失了该表并且无法恢复它有什么建
Python PrettyTable：在表格标题上方添加标题

我有一个生成多个表的脚本这些表都具有相同的列名和非常相似的数据到目前为止我一直通过在每个表之前打印标题来使每个表变得唯一即 print Results for Method Foo table 1 print Results for
机器人框架中“If语句”的使用

我们如何在机器人框架中使用if语句我想仅当关键字满足某些条件时才执行它否则它会执行其他代码这在机器人框架用户指南 http robotframework org robotframework latest RobotFramework
WT中如何清理内存？

更新 2013 年 3 月 27 日您还必须意识到从 Wt 3 3 0 开始只有收到请求后才会清除会话请参阅这个回复 http redmine webtoolkit eu boards 2 topics 5614 r 5615 me
NetBeans 模块项目中是否可以依赖 JAR 文件？

我创建了一个 NetBeans 模块项目需要添加对我创建的 JAR 文件的依赖项这可能吗我只看到添加对其他模块的依赖项的选项我正在使用 NetBeans 6 5 1 THANKS 模块只能依赖于其他模块创建引用您的类的库然后创建
循环遍历动态添加元素的数组

jQuery 新手请求帮助解决我无法解决的问题克隆的表行包含
使用 run-as 命令在 Samsung 4.4.2“程序包未知”上调试本机应用程序

在尝试通过 Galaxy S4 上的 Eclipse 调试 Android 本机应用程序时我在 run as 命令中收到包未知错误有一个开放的这说明了与许可相关的问题 data system packages list文件必须是rw
NSMutableArray 与 NSArray 哪个更好

这是一个有点愚蠢的问题但是如果我想将一个对象添加到数组中我可以使用两者来完成NSMutableArray and NSArray 我应该使用哪个 NSMutableArray array1 array1 addObject obj NS
当另一个应用程序开始/停止播放音频时，我的应用程序可以收到通知吗？

我的 iOS 游戏有音乐和音效我想让用户听自己的音乐来代替游戏的背景音乐一个简单的解决方案是添加一个新的菜单项来禁用游戏的背景音乐但是我想避免创建新的菜单项除非我确信这种方法对用户来说更糟糕我目前的做法将音频会话类别设置为AV
为什么 RNN 需要两个偏置向量？

In Pytorch RNN 实现 http pytorch org docs master nn html highlight rnn torch nn RNN 有两个偏差 b ih and b hh 为什么是这样它与使用一种偏差有什么

为什么 RNN 需要两个偏置向量？

为什么 RNN 需要两个偏置向量？ 的相关文章

随机推荐

热门标签

为什么 RNN 需要两个偏置向量？的相关文章