Attention机制中的“源隐藏状态”指的是什么？

2024-04-07

注意力权重计算如下：

我想知道什么h_s指。

在tensorflow代码中，编码器RNN返回一个元组：

encoder_outputs, encoder_state = tf.nn.dynamic_rnn(...)

正如我所想，h_s应该是encoder_state，但是github/nmt https://github.com/tensorflow/nmt/#attention-wrapper-api给出不同的答案？

# attention_states: [batch_size, max_time, num_units]
attention_states = tf.transpose(encoder_outputs, [1, 0, 2])

# Create an attention mechanism
attention_mechanism = tf.contrib.seq2seq.LuongAttention(
    num_units, attention_states,
    memory_sequence_length=source_sequence_length)

我是否误解了代码？或者h_s实际上意味着encoder_outputs?

公式大概来自这个帖子 https://medium.com/@Synced/a-brief-overview-of-attention-mechanism-13c578ba9129，所以我将使用同一篇文章中的 NN 图片：

在这里，h-bar(s)是所有蓝色隐藏状态encoder（最后一层），以及h(t)是当前的红色隐藏状态decoder（也是最后一层）。一张图t=0，您可以看到哪些块通过虚线箭头连接到注意力权重。这score函数通常是以下之一：

Tensorflow 注意力机制与这张图相符。理论上，细胞输出is在大多数情况下，它的隐藏状态（一个例外是 LSTM 单元，其中输出是状态的短期部分，即使在这种情况下，输出也更适合注意力机制）。在实践中，张量流的encoder_state不同于encoder_outputs当输入用零填充时：状态从前一个单元状态传播，而输出为零。显然，您不想关注尾随零，因此有道理h-bar(s)对于这些细胞。

So encoder_outputs正是从蓝色块向上的箭头。后来在一段代码中，attention_mechanism连接到每个decoder_cell，使其输出通过上下文向量到达图片上的黄色块。

decoder_cell = tf.contrib.seq2seq.AttentionWrapper(
    decoder_cell, attention_mechanism,
    attention_layer_size=num_units)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Attention机制中的“源隐藏状态”指的是什么？的相关文章

在 TensorFlow 中将多个字节读取到单个值中

我尝试以 TensorFlow 中 cifar10 示例中描述的类似方式读取标签 label bytes 2 it was 1 in the original version result key value reader read fil
Caffe，在层中设置自定义权重

I have a network In one place I want to use concat As on this picture 不幸的是该网络无法训练为了理解为什么我想连续改变权重这意味着 FC4096 中的所有值一开始都
如何计算两个字符串向量之间的余弦相似度

我有 2 个维度为 6 的向量我想要一个介于 0 和 1 之间的数字 a c HDa 2Pb 2 BxU BuQ Bve b c HCK 2Pb 2 09 F G 谁能解释我应该做什么使用lsa包和该包的手册 create some f
R 中 svm 特征选择的示例

我正在尝试使用 R 包在 SVM 中应用特征选择例如递归特征选择我已经安装了 Weka 它支持 LibSVM 中的特征选择但我还没有找到任何 SVM 语法的示例或类似的东西一个简短的例子会有很大的帮助功能rfe in the ca
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
在提供给 sklearn 管道中的分类器之前获取所选特征的名称和数量

我在用sel SelectFromModel ExtraTreesClassifier 10 threshold mean 选择我的数据集中最重要的特征然后我想将这些选定的特征提供给我的 keras 分类器但是我的基于 keras 的神
Tensorflow 的 LSTM 输入

I m trying to create an LSTM network in Tensorflow and I m lost in terminology basics I have n time series examples so X
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
如何使用 pytorch 同时迭代两个数据加载器？

我正在尝试实现一个接收两张图像的暹罗网络我加载这些图像并创建两个单独的数据加载器在我的循环中我想同时遍历两个数据加载器以便我可以在两个图像上训练网络 for i data in enumerate zip dataloaders1
mlflow 如何使用自定义转换器保存 sklearn 管道？

我正在尝试使用 mlflow 保存 sklearn 机器学习模型这是一个包含我定义的自定义转换器的管道并将其加载到另一个项目中我的自定义转换器继承自 BaseEstimator 和 TransformerMixin 假设我有 2 个项
如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
如何在R中使用OpenNLP获取POS标签？

这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno
如何确定 Keras Conv2D 函数中的“filter”参数

我刚刚开始我的 ML 之旅并且已经完成了一些教程对我而言不清楚的一件事是如何为 Keras Conv2D 确定过滤器参数我读过的大多数资料只是将参数设置为 32 没有任何解释这只是经验法则还是输入图像的尺寸起作用例如 CIF
Caffe 的 LSTM 模块

有谁知道 Caffe 是否有一个不错的 LSTM 模块我从 russel91 的 github 帐户中找到了一个但显然包含示例和解释的网页消失了以前是http apollo deepmatter io http apollo deep
Java 的支持向量机？

我想用Java编写一个智能监视器它可以随时发出警报detects即将到来的性能问题我的 Java 应用程序正在以结构化格式将数据写入日志文件
神经网络中的时间序列提前预测（N点提前预测）大规模迭代训练

N 90 使用神经网络进行提前预测我试图预测提前 3 分钟即提前 180 点因为我将时间序列数据压缩为每 2 个点的平均值为 1 所以我必须预测 N 90 超前预测我的时间序列数据以秒为单位给出值在 30 90 之间它们通常从
Tensorflow conv2d_transpose 大小错误“out_backprop 的行数与计算的不匹配”

我正在张量流中创建一个卷积自动编码器我得到了这个确切的错误 tensorflow python framework errors InvalidArgumentError Conv2DBackpropInput Number of row
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video

随机推荐

环境变量的 SECRET_KEY 错误

我正在努力通过TaskBuster Django http www marinamele com taskbuster django tutorial create home page with tdd staticfiles templa
如何从 textAngular 工具栏上的自定义按钮插入文本/符号

本质上我想在工具栏上添加一个按钮以允许用户将插入到文本角度编辑器中 http textangular com http textangular com 但是我无法理解如何在注册后向按钮添加功能由于 textangular 网站上的所有
在 SML 中使用foldr 连接字符串

我正在尝试声明一个函数字符串列表 gt 字符串例如输入 Chicago city USA 应该返回 Chicago city USA 到目前为止我所做的是 fun gather ts foldr op ts 这似乎有点符合但问题是我
用户的 Subversion 配置文件存储在主要操作系统上的哪里？

对于 Subversion 1 7 各个主要操作系统特别是 Windows Mac OS X 和 Linux 上的 SVN 配置文件位于何处 subversion config or etc subversion config 适用于
Android 8 或更高版本：检查 Google Play 服务

此方法不断返回 0 根据开发人员文档如果设备安装了最新版本的 google play 此方法应返回类似 SUCCES 的内容有人知道如何使用这个吗 Override public void onResume super onResume
是否可以使用 .Net 框架以编程方式记录对 Windows 共享（SMB 共享）的访问？

只是想知道是否可以找出谁从 Windows 共享中读取了文件理想情况下使用 NET 但 win32 本机也可以我想做的是创建类似的东西awstats http awstats sourceforge net Windows 共享这样我
枚举表单中的所有控件

private void EnableControls bool enable foreach TextBox t in Page Form Controls OfType
VARCHAR 列应该放在 MySQL 中表定义的末尾吗？

我听说从一位同事那里听到的他是从另一位开发人员那里听到的 VARCHAR 列应该始终放在 MySQL 中表定义的末尾因为它们的长度是可变的因此可能会减慢查询速度然而我对堆栈溢出所做的研究似乎与此相矛盾并表明列顺序很重要而对于
从 mysql_fetch_assoc() 以相反的顺序回显

好的这就是技巧在查询中我从名为 messages 的表中获得了正确的结果它获取按相反顺序插入的时间排序的最后 10 条消息以下是查询 query mysql query SELECT time username message F
C# 中的电子邮件发送服务在服务器超时后无法恢复

我已经被这个问题困扰了好几个月了这让我抓狂我有一个用 C NET 4 5 编写的 Windows 服务它基本上使用 Outlook 帐户发送电子邮件我认为这是一个 Office365 服务我知道凭据顺序问题这不会影响我许多
Python 中 C++ 的简单分词器

努力寻找一个Python脚本库来标记找到特定的标记如函数定义名称变量名称关键字等我已经设法使用类似的方法找到关键字空格等this https docs python org 3 library re html writing a
像 USE 这样的函数可以指向不同服务器上的 SQL 数据库吗？

在 SQL Server 中您可以应用use函数将查询指向另一个数据库例如 USE databasename GO 是否有一个功能允许您指向不同的数据库服务器并使用该服务器上的数据库我希望这能起作用但没有运气 USE servern
如何更新负载均衡的多个 EC2 实例？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案因此我一直在使用亚马逊云 AWS 我试图弄清楚如何将文件传输到所有服务器如果它们负载平衡起初我以为我可以将 3 个不同的实例绑定到一个负载均衡器
选择器、图层列表和形状/位图位于同一 xml 中

我在 xml 里面有这个代码drawable folder
通过 SSH 连接 MySQL 时遇到问题

我正在本地 OS X 计算机上运行 Node Express 网站我需要 ssh 到远程 mysql 数据库以便我可以开始针对它编写查询现在当我通过 OS X Yosemite 终端执行此操作时我可以 ssh 到云中的远程服务器
Firebase OrderByChild() 和 EqualTo() 无法正常工作

我需要在随机键中找到现有的子项并且我使用 OrderByChild 和 EqualTo 来过滤查询但它的行为非常奇怪有时它显示子项仅存在一个子项有时它不起作用我需要检查 February 2019 的子项 date expense
从 Resources 子文件夹中获取文件名

在我的资源文件夹中我有一个图像子文件夹我想从该文件夹中获取这些图像的所有文件名尝试了几个Resources loadAll之后获取 name 但没有成功的方法这是实现我在这里想做的事情的正确做法吗没有内置 API 可以执行此操作
从具有多个结果集的存储过程中检索数据

给定 SQL Server 中的一个存储过程它有多个select语句有没有办法在调用过程时单独处理这些结果例如 alter procedure dbo GetSomething as begin select from dbo Per
ASP.NET：权限/身份验证架构

我正在考虑建立一个验证在我的 ASP NET 应用程序中具有以下要求一名用户只有一个角色即管理员销售经理销售角色拥有一组 CRUD 访问现有对象子集的权限 IE 销售人员对对象类型产品具有 CREAD READ WRITE
Attention机制中的“源隐藏状态”指的是什么？

注意力权重计算如下我想知道什么h s指在tensorflow代码中编码器RNN返回一个元组 encoder outputs encoder state tf nn dynamic rnn 正如我所想 h s应该是encoder sta

Attention机制中的“源隐藏状态”指的是什么？

Attention机制中的“源隐藏状态”指的是什么？ 的相关文章

随机推荐

热门标签

Attention机制中的“源隐藏状态”指的是什么？的相关文章