为 Seq2Seq 模型添加注意力层

2023-11-29

我已经构建了编码器-解码器的 Seq2Seq 模型。我想为其添加一个注意力层。我尝试添加注意力层通过这个但这没有帮助。

这是我最初的代码，没有注意

# Encoder
encoder_inputs = Input(shape=(None,))
enc_emb =  Embedding(num_encoder_tokens, latent_dim, mask_zero = True)(encoder_inputs)
encoder_lstm = LSTM(latent_dim, return_state=True)
encoder_outputs, state_h, state_c = encoder_lstm(enc_emb)
# We discard `encoder_outputs` and only keep the states.
encoder_states = [state_h, state_c]

# Set up the decoder, using `encoder_states` as initial state.
decoder_inputs = Input(shape=(None,))
dec_emb_layer = Embedding(num_decoder_tokens, latent_dim, mask_zero = True)
dec_emb = dec_emb_layer(decoder_inputs)
# We set up our decoder to return full output sequences,
# and to return internal states as well. We don't use the
# return states in the training model, but we will use them in inference.
decoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True)
decoder_outputs, _, _ = decoder_lstm(dec_emb,
                                     initial_state=encoder_states)
decoder_dense = Dense(num_decoder_tokens, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)

# Define the model that will turn
# `encoder_input_data` & `decoder_input_data` into `decoder_target_data`
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.summary()

这是我在解码器中添加注意层后的代码（编码器层与初始代码中的相同）

# Set up the decoder, using `encoder_states` as initial state.
decoder_inputs = Input(shape=(None,))
dec_emb_layer = Embedding(num_decoder_tokens, latent_dim, mask_zero = True)
dec_emb = dec_emb_layer(decoder_inputs)
# We set up our decoder to return full output sequences,
# and to return internal states as well. We don't use the
# return states in the training model, but we will use them in inference.
decoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True)
attention = dot([decoder_lstm, encoder_lstm], axes=[2, 2])
attention = Activation('softmax')(attention)
context = dot([attention, encoder_lstm], axes=[2,1])
decoder_combined_context = concatenate([context, decoder_lstm])
decoder_outputs, _, _ = decoder_combined_context(dec_emb,
                                     initial_state=encoder_states)
decoder_dense = Dense(num_decoder_tokens, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)

# Define the model that will turn
# `encoder_input_data` & `decoder_input_data` into `decoder_target_data`
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.summary()

执行此操作时，我收到错误

 Layer dot_1 was called with an input that isn't a symbolic tensor. Received type: <class 'keras.layers.recurrent.LSTM'>. Full input: [<keras.layers.recurrent.LSTM object at 0x7f8f77e2f3c8>, <keras.layers.recurrent.LSTM object at 0x7f8f770beb70>]. All inputs to the layer should be tensors.

有人可以帮忙在这个架构中安装一个注意力层吗？

点积需要在张量输出上计算...在编码器中您正确定义了编码器输出，在解码器中您必须添加decoder_outputs, state_h, state_c = decoder_lstm(enc_emb, initial_state=encoder_states)

现在的点积是

attention = dot([decoder_outputs, encoder_outputs], axes=[2, 2])
attention = Activation('softmax')(attention)
context = dot([attention, encoder_outputs], axes=[2,1])

连接不需要initial_states。你必须在你的 rnn 层中定义它：decoder_outputs, state_h, state_c = decoder_lstm(enc_emb, initial_state=encoder_states)

这是完整的例子

编码器+解码器

# dummy variables
num_encoder_tokens = 30
num_decoder_tokens = 10
latent_dim = 100

encoder_inputs = Input(shape=(None,))
enc_emb =  Embedding(num_encoder_tokens, latent_dim, mask_zero = True)(encoder_inputs)
encoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True)
encoder_outputs, state_h, state_c = encoder_lstm(enc_emb)
# We discard `encoder_outputs` and only keep the states.
encoder_states = [state_h, state_c]

# Set up the decoder, using `encoder_states` as initial state.
decoder_inputs = Input(shape=(None,))
dec_emb_layer = Embedding(num_decoder_tokens, latent_dim, mask_zero = True)
dec_emb = dec_emb_layer(decoder_inputs)
# We set up our decoder to return full output sequences,
# and to return internal states as well. We don't use the
# return states in the training model, but we will use them in inference.
decoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True)
decoder_outputs, _, _ = decoder_lstm(dec_emb,
                                     initial_state=encoder_states)
decoder_dense = Dense(num_decoder_tokens, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)

# Define the model that will turn
# `encoder_input_data` & `decoder_input_data` into `decoder_target_data`
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.summary()

带有注意力的解码器

# Set up the decoder, using `encoder_states` as initial state.
decoder_inputs = Input(shape=(None,))
dec_emb_layer = Embedding(num_decoder_tokens, latent_dim, mask_zero = True)
dec_emb = dec_emb_layer(decoder_inputs)
# We set up our decoder to return full output sequences,
# and to return internal states as well. We don't use the
# return states in the training model, but we will use them in inference.
decoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True)
decoder_outputs, state_h, state_c = decoder_lstm(dec_emb, initial_state=encoder_states)
attention = dot([decoder_outputs, encoder_outputs], axes=[2, 2])
attention = Activation('softmax')(attention)
context = dot([attention, encoder_outputs], axes=[2,1])
decoder_outputs = concatenate([context, decoder_outputs])
decoder_dense = Dense(num_decoder_tokens, activation='softmax')(decoder_outputs)

# Define the model that will turn
# `encoder_input_data` & `decoder_input_data` into `decoder_target_data`
model = Model([encoder_inputs, decoder_inputs], decoder_dense)
model.summary()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

tensorflow

Keras

NLP

machinetranslation

为 Seq2Seq 模型添加注意力层的相关文章

如何在 pygame 中水平翻转图像？

这是在 pygame 如何翻转图像假设一个图像猪向右看时向左看我按向左箭头键然后保持这样即使我不按任何键或者按向上和向下箭头键那么当我按向右箭头键时如何再次将其切换回向右看并使其保持这种状态即使我不按任何键或按向上和向
通过 subprocess.communicate 在 python 脚本之间传输 pickled 对象输出

我有两个 python 脚本 object generator py 它会腌制给定的对象并打印它另一个脚本 object consumer py 通过 subprocess communicate 选择第一个脚本的输出并尝试使用 pic
提交用于 Tensorflow 对象检测的 Google Cloud ML 训练作业时出现错误消息

尝试提交 Tensorflow 对象检测任务的 Google Cloud ML 训练作业我正在遵循官方指南 https github com tensorflow models blob master research object de
窗口多维 Tensorflow 数据集

我有形状的二维数据m by n我想要的窗口大小w沿着第一个轴进入数据集m w许多二维数组每个数组的大小w by n 例如如果数据是 0 1 2 3 4 5 6 7 8 9 10 11 然后我想将其窗口化 0 1 2 3 4 5 6 7 8
Django Rest Framework 完整性错误捕获

在 Django Rest Framework 中我使用了序列化器视图集和路由器方法每当我在 django Rest 框架的 API 视图中发布故意错误时它都会抛出完整性错误有没有办法尝试捕获错误例如如果数据中没有错误则继续保
如何在google colaboratory上使用GPU升级tensorflow

目前google colaboratory使用tensorflow 1 4 1 我想升级到1 5 0版本每次当我执行时 pip install upgrade tensorflow命令 notebook实例成功将tensorflow版本升
无法让我的脚本自动生成一些值以在有效负载中使用

我创建了一个脚本通过随后发送两个 https 请求来从目标页面获取 html 元素我的脚本可以完美地完成这件事但是我必须从 chrome 开发工具复制四个值来填充其中的四个键payload为了发送最终的http请求到达目标页面这是
numpy.nan_to_num - 'nan' 关键字无法识别

当您尝试使用以下代码将 nan 值替换为自定义数值时 np nan to num exp allowance nan 9999 99 它产生以下错误 typeerror nan to num got an unexpected keywor
numpy 数组的 True 和 False 索引

Code import numpy as np a np arange 5 print a True print a False Result 0 1 2 3 4 对于上面的代码当我将 True 传递给 numpy 数组的索引时它返回完
Django celery 4 - ValueError：启动 celery 工作程序时，以 10 为基数的 int() 的文字无效

我已将 celery py 配置为其文档但我将 celery 代理 URL 放入 AWS SQS 但无法启动它工作当我运行 celery 工作程序时我得到的 ValueError 为 File Users abd Desktop pr
增加 sigmoid 预测输出值？

我创建了一个用于文本分类的 Conv1D 模型当在最后一个密集处使用 softmax sigmoid 时它产生的结果为 softmax gt 0 98502016 0 0149798 sigmoid gt 0 03902826 0 00
查找张量流运算所依赖的所有变量

有没有办法找到给定操作通常是损失所依赖的所有变量我想用它来将该集合传递到optimizer minimize or tf gradients 使用各种set intersection 组合到目前为止我已经找到了op op input
Keras 中批量大小可变的batch_dot

我正在尝试编写一个层来合并 2 个张量formula https i stack imgur com I49aj png x 0 和x 1 的形状都是 1 500 M是500 500的矩阵我希望输出为 500 500 我认为这在理论上是可
Python替换多个字符串同时支持反向引用

有一些好方法 https stackoverflow com questions 6116978 python replace multiple strings处理 python 中的同时多字符串替换但是我在创建一个高效的函数来实现这一
缩小轴 1 的形状为空 [x,0]

我正在尝试训练 SVHN 街景门牌号码数据集用于张量流中的对象检测对数字进行一些基本的 OCR 到目前为止我已经成功地遵循了对象检测张量流指南中的宠物训练示例当我基于样本 fast rcnn resnet101 config 训练
Python3中如何使用StringIO？

我使用的是 Python 3 2 1 无法导入StringIO模块我用io StringIO它可以工作但我不能使用它numpy s genfromtxt 像这样 x 1 3 n 4 5 8 numpy genfromtxt io Str
boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
PyMC3-自定义 theano Op 进行数值积分

我使用 PyMC3 进行参数估计使用必须定义的特定似然函数我用谷歌搜索了一下发现我应该使用densitydist实现用户定义的似然函数的方法但它不起作用如何在 PyMC3 中合并用户定义的似然函数并找出最大 aposteriori
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl

随机推荐

为什么百分比高度在我的 div 上不起作用？ [复制]

这个问题在这里已经有答案了我有两个高度为90 的div 但是显示不一样我尝试在它们周围放置一个外部 div 但这没有帮助此外在 Firefox Chrome Opera 和 Safari 上也是如此有人可以解释为什么我遇到这个问题
使用数据触发控制故事板，但只触发一次

我使用数据触发器来控制一些故事板但它只能触发一次
Java - 同步线程 - 输出顺序错误

在玩了一年 Java 之后我正在阅读 Java 完整参考第 9 版到目前为止我对这本书很满意但我现在在同步线程方面遇到了一个非常奇怪的问题 package syncro class Callme void call String
同时等待具有独立延续的多个异步调用

在多种情况下我需要调用多个异步调用来自同一个事件处理程序这些调用可以彼此独立地进行每个调用都有自己的延续来更新 UI 以下简单的实现导致三个异步操作按顺序执行 private async void button Click obje
Google 地图 JavaScript API - fitbounds 与 setCenter 一起使用

我一直在寻找解决这个问题的方法但我似乎找不到解决这个问题的东西我得到的最接近的是这个线程但这行不通我想做的是基于一组运行良好的标记来运行 fitbounds 但我还想根据用户位置 plunk 中的弹跳标记将地图居中并仍将所有标记
打印 pandas 数据框时抑制描述性输出

假设我有数据框 c a np random random 6 2 c pd DataFrame a c columns A B 打印第 0 行值 print c loc 0 结果是 A 0 220170 B 0 261467 Name 0
如何渲染大量相似的物体？

我有大量对象至少 10 000 个粒子例如三角形正方形圆形或球体实际上现在我有一个对象我渲染了很多次它看起来像这样 for int i 0 i
android 版 admob 入门 - 对文档感到困惑

我刚刚开始考虑将 Admob 广告放入我正在构建的 Android 应用程序中到目前为止还没有好的结果我一直在遵循从 adMob 网站下载的 AdMod Android SDK Instructions pdf 中的示例但感到困惑
Android：AsyncTask 的处理程序

我将 AsyncTask 与 ProgressDialog 结合使用查看我的代码我在 onPostExecute 中遇到问题如果任务是第一次运行它会在handleMessage 中收到progressDialog 的Null Poi
反转 pandas 中的 get_dummies 编码

列名称为 ID 1 2 3 4 5 6 7 8 9 col 值为 0 或 1 我的数据框如下所示 ID 1 2 3 4 5 6 7 8 9 1002 0 1 0 1 0 0 0 0 0 1003 0 0 0 0 0 0 0 0 0 1004
SignalR(v2.2.0) OnDisconnected 设置用户离线

我使用以下代码在组中添加用户并使用以下代码将用户保存在该特定组的数据库中 SERVER public class ChatHub Hub public async Task JoinRoom string user Id string r
将小数转换为任何基数？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我知道 strtoll 但它将任何基数基数 2 到 36 之间转换为十进制我需要通过将十进制转换为任何基数基数来执行相反的操作一个例子是十进制 130 基数 12 AA 以下代
如何在 Python 中根据 DTD 文件验证 xml

我需要验证 XML 字符串而不是文件针对 DTD 描述文件这怎么能在python 另一个不错的选择是lxml的验证我觉得用起来很愉快取自 lxml 站点的一个简单示例 from StringIO import StringIO fr
在 WAMP PHP Google+ 项目中安装 Composer，PHP 无法识别

我正在关注这个 PHP Google 教程我正在尝试在我的 WAMP 目录中安装作曲家 C wamp www gplus quickstart php gt curl s https getcomposer org installer ph
更改 WiFi MAC 地址 [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我是致力于该项目的开发人员之一薮猫项目我们正在考虑使用华为创意U1850作为我们Android开发的默认平台活动我们从当地经销商之一购买了几部手机在澳大利亚这里我们注意到我
为什么Java中每次long和double都工作时会有这么多类型的数字？

现在我一直在尝试学习Java编程我想知道为什么我们使用这样的东西Float short and int当我们可以只是使用Long and Double 我不明白那部分很好的问题特别是如果你来自这样的语言JavaScript它不区分数字
如何在 SeekBar 上显示最大值和最小值？

我正在尝试做的事情我想实施一个SeekBar在 Android 应用程序中SeekBar我还想显示最大值和最小值最小值始终为 0 但最大值取决于剪辑长度例如 0 180 有没有办法显示用户移动时选择的值在搜索栏本身上 SeekBar
Visual Studio Code 更新后，HTML 文件中的智能 Javascript 建议不再起作用

我使用 Visual Studio Code 已有几个月了我已经习惯了里面的聪明建议
为什么Java程序需要“main()”方法？

这只是一个命名约定为什么从 shell 执行程序时不能调用任何方法例如 gt java myPackage MyClass myOwnEntryPoint String str 是的这是一个命名约定继承自C 这样做的好处是只需查看
为 Seq2Seq 模型添加注意力层

我已经构建了编码器解码器的 Seq2Seq 模型我想为其添加一个注意力层我尝试添加注意力层通过这个但这没有帮助这是我最初的代码没有注意 Encoder encoder inputs Input shape None enc emb

为 Seq2Seq 模型添加注意力层

为 Seq2Seq 模型添加注意力层 的相关文章

随机推荐

热门标签

为 Seq2Seq 模型添加注意力层的相关文章