Keras LSTM 层实现背后的架构是什么?

2023-12-26

Keras 中 LSTM 层的输入维度如何转换为输出维度?从阅读可拉的博客文章 http://colah.github.io/posts/2015-08-Understanding-LSTMs/,看起来好像有"timesteps"(又名input_dim或中的第一个值input_shape)应等于神经元的数量,神经元的数量应等于该 LSTM 层的输出数量(由units论证LSTM layer).

来自阅读这个帖子 https://stats.stackexchange.com/questions/274478/understanding-input-shape-parameter-in-lstm-with-keras,我了解输入形状。我感到困惑的是 Keras 如何将输入插入到每个 LSTM“智能神经元”中。

Keras LSTM 参考 https://keras.io/layers/recurrent/#lstm

让我困惑的示例代码:

model = Sequential()
model.add(LSTM(32, input_shape=(10, 64)))
model.add(Dense(2))

由此,我认为 LSTM 层有 10 个神经元,每个神经元都被输入一个长度为 64 的向量。然而,它似乎有 32 个神经元,我不知道每个神经元输入了什么。据我所知,为了将 LSTM 连接到密集层,我们只需将所有 32 个输出插入到 2 个神经元中的每一个即可。让我困惑的是 LSTM 的输入层。

(类似的帖子,但不完全是我需要的 https://stackoverflow.com/questions/39969717/how-to-process-input-and-output-shape-for-keras-lstm)


2020 年重新审视和更新:我是部分地正确的!该架构有 32 个神经元。 10 代表时间步值。每个神经元都被输入一个 64 长度的向量(可能代表一个单词向量),代表 10 个时间步长的 64 个特征(可能是 64 个有助于识别单词的单词)。

32代表神经元的数量。它代表该层有多少个隐藏状态,也代表输出维度(因为我们在每个 LSTM 神经元的末尾输出一个隐藏状态)。

最后,最后一个时间步从 32 个神经元生成的 32 维输出向量被馈送到 2 个神经元的密集层,这基本上意味着将 32 长度向量插入到两个神经元,并在输入和激活上赋予权重。

更多阅读一些有帮助的答案:

  • 了解 Keras LSTM https://stackoverflow.com/questions/38714959/understanding-keras-lstms
  • 当我创建一个包含 N 个单元的有状态 LSTM 层时,我到底要配置什么 https://stackoverflow.com/questions/44273249/in-keras-what-exactly-am-i-configuring-when-i-create-a-stateful-lstm-layer-wi
  • 初始化 LSTM 隐藏状态 喀拉斯 https://stackoverflow.com/questions/42415909/initializing-lstm-hidden-state-tensorflow-keras
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Keras LSTM 层实现背后的架构是什么? 的相关文章

随机推荐

  • 如何在 Java 中创建充满方法的列表并对其进行迭代(使用方法)

    我希望能够创建充满我自己的方法的列表 集合 数组 并在迭代的每个步骤中调用该方法 对此最好的解决方案是什么 我想要这样的东西 List a new List a add myCustomMethod1 a add myCustomMetho
  • 如何在提交时跳转到锚点 - 而不是页面顶部

    在此页面上我有一个怀孕计算器脚本 http taranakimidwife co nz index php http taranakimidwife co nz index php 项目ID 104 目前计算的是按页面跳转回顶部 我希望它转
  • DLL 中的共享内存

    DLL 中的共享内存是如何工作的 当DLL附加到进程时 它使用与进程相同的内存地址 假设 DLL 中有以下函数 int data 0 int foo if data data new int random return data 当进程 A
  • inconsolata 缺少构建 R 小插图

    在 ubuntu 14 04 上使用 texlive 检查 R 包 例如devtools check 会返回 LaTeX errors found LaTeX Error File inconsolata sty not found Typ
  • Mac mysql 错误 1045 (28000): 用户 'root'@'localhost' 的访问被拒绝

    Mac 10 10 1 Mysql 5 6 22 当我在我的mac上安装mysql时 我写mysql u root p在终端上 出现错误 错误 1045 28000 用户 root localhost 的访问被拒绝 使用密码 YES 当我使
  • 如何恢复上次提交并保留 Mercurial 中的更改?

    我有三个提交 1 2 和 3 如何回滚 2 和 3 并且仍然保留它们更改的文件 1 2 3 gt 1 and changed files of 2 and 3 您使用strip命令 从存储库中删除变更集及其所有后代 与 keep optio
  • 如何以编程方式覆盖按钮?

    我想要完成的是 在运行时 在屏幕中间放置一个按钮 作为最顶层 覆盖其下面的任何内容 它不大 所以它不会完全覆盖屏幕 只是覆盖它下面的任何东西 我考虑创建一个自定义对话框 但是它会阻止所有其他用户输入 我希望这个新按钮下方的所有视图都能正常运
  • 在 Typescript 中使用 FileSystemWatcher(Visual Studio Code 扩展)

    我是 TypeScript 和 Visual Studio Code 的新手 想要为 Visual Studio Code 开发一个插件 但我对一个由FileSystemWatcher 激活后 在我的扩展中我创建了一个FileSystemW
  • 如何判断EditText中的输入是否为整数?

    大家好 我是 Android 编程新手 我正在尝试建立一个活动 其中包括edittext场和一个button 当用户输入整数时 该按钮将引导他们进入下一个活动 但是 如果有办法检查用户输入的类型 我不会这样做 有人可以帮助我吗 非常感谢 从
  • ng-model 依赖性的隔离范围陷阱

    好吧 由于 AngularJS 文档网站上的 改进此文档 按钮不起作用 并且讨论现已结束 我想问一个关于 隔离范围陷阱 段落的问题ng模型控制器 http docs angularjs org api ng directive 3angMo
  • 如何查找可能引发哪些异常

    我正在尝试找到最好的方法来找出我的 python 代码可能引发的异常 你们使用的最佳方法是什么 到目前为止我可以 祈祷是在某处的在线文档中这么说的 很少这样做 抓取 py 文件以获取 raise 语句 必须有更好的方法来获取这些信息 这个问
  • 全日历多个营业时间,每天两班制

    我已将完整日历集成到我的网站中 我的要求之一是从数据库中获取营业时间并将其呈现在日历上 所以基本上每天都有两班 早上和晚上 我需要能够创建一个营业时间数组 其中的值从数据库中填充 开箱即用 我可以使用下面的代码来呈现常见的营业时间 busi
  • 如何改进 euler 14 的代码?

    我解决了欧拉问题 14 http projecteuler net problem 14但我使用的程序非常慢 我看看其他人做了什么 他们都想出了优雅的解决方案 我试图理解他们的代码 但没有取得多大成功 这是我的代码 确定 Collat z
  • 在 Stream.read 中使用 Longint 计数和 Int64 大小不是很危险吗?

    我正在检查TMemoryStream http docwiki embarcadero com Libraries Tokyo en System Classes TMemoryStream LoadFromStream类并发现以下例程 p
  • OCaml 中短路运算符和 let 的求值顺序

    在 OCaml 中 当使用let为短路运算符分配别名 or 它不再短路操作数的求值 这并不直观 这种行为的原因是什么 考虑以下代码 let f Printf printf f false let g Printf printf g true
  • Ruby Activerecord IN 子句

    我想知道是否有人知道如何在 activerecord 中执行 IN 子句 不幸的是 IN 子句几乎无法通过谷歌搜索 所以我必须在这里发布 基本上我想回答这样的问题 给我这些宿舍中的所有大学生 其中宿舍id在此数组 id数组 中 我知道如何在
  • 使用opencv检测图像中的文本

    我需要检测图像中的文本 这里有一些在大多数情况下都有效的代码 但并非全部 请参阅附加的输入 输出图像 code include string include fstream include var bin opencv include op
  • 在运行时将 X 个带有 SelectedItem 的 ComboBox 添加到 DataGrid (WPF)

    我想创建一整行ComboBoxes in a DataGrid 我在以下方面取得了一些进展 Declare it private DataGridComboBoxColumn CreateCustomComboBoxDataSouce st
  • 如何在我的 swing 应用程序中使用 Java 类调用并向 Servlet 传递参数? [复制]

    这个问题在这里已经有答案了 在我的 Swing 应用程序中 我需要使用登录页面将参数传递给 servlet 来对用户进行身份验证 在 Web 应用程序中 我们可以使用 Ajax 和 JavaScript 来完成此操作 但是 如何在我的 Sw
  • Keras LSTM 层实现背后的架构是什么?

    Keras 中 LSTM 层的输入维度如何转换为输出维度 从阅读可拉的博客文章 http colah github io posts 2015 08 Understanding LSTMs 看起来好像有 timesteps 又名input