LSTM中的input_shape和batch_input_shape有什么区别

2024-02-05

这只是设置同一事物的不同方式还是它们实际上具有不同的含义?和网络配置有关系吗?

在一个简单的例子中,我无法观察到以下之间的任何区别:

model = Sequential()
model.add(LSTM(1, batch_input_shape=(None,5,1), return_sequences=True))
model.add(LSTM(1, return_sequences=False))

and

model = Sequential()
model.add(LSTM(1, input_shape=(5,1), return_sequences=True))
model.add(LSTM(1, return_sequences=False))

但是当我将批量大小设置为 12 时batch_input_shape=(12,5,1)并使用batch_size=10在拟合模型时,我遇到了错误。

ValueError:无法为张量提供形状 (10, 5, 1) 的值 'lstm_96_input:0',其形状为'(12, 5, 1)'

这显然是有道理的。然而,我认为在模型级别限制批量大小没有意义。

我错过了什么吗?


这只是设置同一事物的不同方式还是它们实际上具有不同的含义?和网络配置有关系吗?

是的,它们实际上是等效的,您的实验证实了这一点,另请参阅这次讨论 https://stackoverflow.com/q/48140989/712995.

然而,我认为在模型级别限制批量大小没有意义。

批量大小限制有时是必要的,我想到的例子是有状态LSTM,其中批次中的最后一个单元状态被记住并用于后续批次的初始化。这确保客户端不会将不同的批量大小输入网络。示例代码:

# Expected input batch shape: (batch_size, timesteps, data_dim)
# Note that we have to provide the full batch_input_shape since the network is stateful.
# the sample of index i in batch k is the follow-up for the sample i in batch k-1.
model = Sequential()
model.add(LSTM(32, return_sequences=True, stateful=True,
               batch_input_shape=(batch_size, timesteps, data_dim)))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

LSTM中的input_shape和batch_input_shape有什么区别 的相关文章

  • 使用 LSTM 进行时间序列模式识别(python)

    我的应用场景和上一个类似时间序列中的模式识别 https stackoverflow com questions 11752727 pattern recognition in time series By processing a tim
  • Google Colab 使用 Transformers 和 PyTorch 微调 BERT Base Case 时出现间歇性“RuntimeError: CUDA out of memory”错误

    我正在运行以下代码来微调 Google Colab 中的 BERT Base Cased 模型 有时代码第一次运行良好 没有错误 其他时候 相同的代码使用相同的数据 会导致 CUDA 内存不足 错误 以前 重新启动运行时或退出笔记本 返回笔
  • Keras如何在Relu激活函数中使用max_value

    keras activation py 中定义的 Relu 函数为 def relu x alpha 0 max value None return K relu x alpha alpha max value max value 它有一个
  • model.fit 在 Keras 中如何工作?

    我之前的帖子或错误是这样的one https stackoverflow com questions 52261090 do the operations defined in array ops in tensorflow have gr
  • Haar级联正例图像大小调整

    我正在迈出第一步 为自定义对象识别创建 haar 级联 我花了时间获取大量数据并编写了一些预处理脚本以将视频转换为帧 我的下一步是裁剪感兴趣的对象 以创建一些积极的训练示例 我有几个问题 我确实在网上寻找答案 我有点困惑 我读到我应该致力于
  • 按相似度对矩阵进行排序

    我有 100 个矩阵 其中每一行对应一个个体 列对应站点 我想通过相似性度量对行进行排序 以便最相似的个体在矩阵中彼此相邻 我使用 k 近邻按行对矩阵进行排序 并将这些排序的矩阵提供给卷积神经网络 我想知道是否还有其他措施可以完成手头的任务
  • sigmoid激活函数可以用来解决Keras中的回归问题吗?

    我已经用 R 实现了简单的神经网络 但这是我第一次用 Keras 实现 所以希望得到一些建议 我在 Keras 中开发了一个神经网络函数来预测汽车销量 数据集可用here https github com allmydatasets dat
  • 线性问题和非线性问题之间的区别?点积和核技巧的本质

    核技巧将非线性问题映射为线性问题 我的问题是 1 线性问题和非线性问题的主要区别是什么 这两类问题的差异背后的直觉是什么 核技巧如何帮助在非线性问题上使用线性分类器 2 为什么点积在这两种情况下如此重要 Thanks 当人们说到分类问题的线
  • Keras IndexError:索引超出范围

    我是 Keras 新手 我尝试在数据集上执行二进制 MLP 并且不断使索引超出范围 但不知道为什么 from keras models import Sequential from keras layers core import Dens
  • Tensorflow 2.0 中的二阶导数

    我正在尝试计算标量变量的简单向量函数的二阶导数f x x x 2 x 3 使用 TF 2 3 与tf GradientTape def f ab x return x x 2 x 3 import tensorflow as tf in1
  • Keras 错误:预计会看到 1 个数组

    当我尝试在 keras 中训练 MLP 模型时出现以下错误 我使用的是 keras 版本1 2 2 检查模型输入时出错 您输入的 Numpy 数组列表 传递给您的模型的尺寸不是模型预期的尺寸 预期的 查看 1 个数组 但得到以下 12859
  • 如何使用机器学习从数据序列计算状态图?

    通用配方 我有一个由一系列点组成的数据集 每个点有 12 个特征 我有兴趣检测此数据中的事件 在训练数据中我知道事件发生的时刻 当事件发生时 我可以在事件发生之前的点序列中看到可观察到的模式 该形态由大约 300 个连续点形成 我感兴趣的是
  • 敏感性特异性图 python

    我正在尝试重现类似于此的灵敏度特异性图 其中 X 轴是阈值 但我还没有找到如何做到这一点 一些 skalern 指标 如 ROC 曲线 会返回真阳性和假阳性 但我还没有找到任何选项来制作此图 我试图将概率与实际标签进行比较以保持计数 我得到
  • 为什么各个树的 xgboost 回归预测存在差异?

    首先 我运行一个非常简单的 xgb 回归模型 其中仅包含 2 棵树 每棵树有 1 个叶子 可用数据here https raw githubusercontent com jbrownlee Datasets master pima ind
  • 收到的标签值 1 超出了 [0, 1) 的有效范围 - Python、Keras

    我正在使用具有张量流背景的 keras 开发一个简单的 cnn 分类器 def cnnKeras training data training labels test data test labels n dim print Initiat
  • sklearn.model_selection.train_test_split 示例中的“随机状态”是什么? [复制]

    这个问题在这里已经有答案了 有人能给我解释一下吗random state在下面的例子中意味着什么 import numpy as np from sklearn model selection import train test split
  • 使用 sklearn 进行稀疏主成分分析

    我正在尝试从中复制一个应用程序paper https people eecs berkeley edu elghaoui Pubs SPCAhandbookSV pdf 作者下载的地方20个新闻组 http scikit learn org
  • 每次运行神经网络代码时结果都会改变

    我通过运行此链接中提供的代码得到了结果神经网络 预测多个变量的值 https stackoverflow com questions 58071836 neural network predicting values of multiple
  • 在 R 中绘制决策树(插入符)

    我已经训练了一个数据集rf方法 例如 ctrl lt trainControl method LGOCV repeats 3 savePred TRUE verboseIter TRUE preProcOptions list thresh
  • Encog:BasicNetwork:无需预先构建数据集的在线学习

    我正在尝试使用 encog 库作为强化学习问题的函数逼近器 更准确地说 我正在尝试启动并运行多层感知器 BasicNetwork 由于我的代理将根据我选择的任何 RL 算法以某种方式探索世界 因此我无法预先构建任何 BasicNeuralD

随机推荐

  • Cloud Functions 中的 Cloud Firestore

    我想将新的 Cloud Firestore 集成到我的 Cloud Functions 中 我更新了 node js 并在我的 Mac 上安装了最新的 firebase 版本 文档说 exports myFunctionName funct
  • 如何在 React 应用程序中处理 Firebase onAuthStateChanged 并相应地路由用户?

    我正在开发一个与 Firebase 集成的 React Web 应用程序 并且我正在尝试对我的用户进行身份验证 我已经设置了路线 以便在用户通过身份验证时显示主页组件 否则显示登录页面 但是 当我的应用程序首次加载时 它会显示登录页面 需要
  • 数据框的小提琴图

    我有一个data frame 例如 df data frame AAA rnorm 100 1 1 BBB rnorm 100 2 1 5 CCC rnorm 100 1 5 1 2 我想在联合小提琴图中绘制它的每个列 这是我目前所处的位置
  • 计算 sf 线串与 r 中的网格单元相交的次数

    考虑一组线串和一个多边形网格 sf 几何 library sf creating data example id lt c 844 844 844 844 844 855 855 855 855 855 lat lt c 30 6456 2
  • 大数的质因数分解

    我正在尝试找出大数因式分解的复杂性 哪种算法是最好的 查找数字质因数的复杂度是多少 假设数字的长度为n 最著名的大于 100 位整数因式分解算法是通用数域筛 http en wikipedia org wiki General number
  • VBA代码取消保护打开的powerpoint演示文稿,然后在保存之前再次保护它?

    我保护了 Power Point 演示文稿不被用户修改 但是我无法使用 VBA 取消对其的保护 我尝试使用下面的代码 但它不起作用 它仅适用于未受保护的演示文稿 但您必须从代码中删除密码 set p pa presentations ope
  • 我如何更改 DOCTYPE

    这里有人知道我如何使用 javascript 动态更改文档类型吗 我尝试过这个功能 document doctype 但它不起作用 我希望这可以帮助你们中的一些人 在控制台中测试 它改变了实际的 DOCTYPE var newDoctype
  • 文件名中可以​​使用“/”吗?

    我知道这不是应该做的事情 但是有没有办法使用通常在 Linux 中分隔文件名中的目录的斜杠字符 答案是你不能 除非你的文件系统有错误 原因如下 有一个系统调用用于重命名您定义的文件fs namei c called renameat SYS
  • 如何进行布尔异或?

    显然没有布尔版本的按位异或运算符 该怎么办 这是由不等于运算符提供的 lt gt
  • Razor 语法突出显示在带有 MVC 5 的 VS 2012 中不起作用

    我正在 Visual Studio 2013 RC 中使用 MVC 5 RC 1 效果很好 现在 我按照与描述相同的方式将 VS 2012 中现有的 MVC 4 项目升级到 MVC 5here http egypt silverkeytec
  • 大整数的 GCD 算法

    我正在研究快速 次二次 GCD 计算算法并寻找它们的任何细节 我想看看它们的实现 以便有机会更好地理解它们 Euclid GCD 和 Binary GCD 算法 具有二次运行时间 显然非常简单 我对它们没有任何问题 我正在寻找的算法是 Le
  • X-Macros 的实际使用

    我刚刚了解到X Macros http en wikibooks org wiki C Programming Preprocessor X Macros 您见过 X 宏在现实世界中的哪些用途 它们什么时候是适合这项工作的工具 几年前 当我
  • Spark中是否可以插入临时表?

    我使用 Databricks 和 Apache Spark 2 4 测试了以下查询 sql
  • 解析时间戳以与 CW Log Insights 函数一起使用

    尝试使用内置的 Cloudwatch Log 功能 例如 日期楼层 带有像 2020 03 24T19 03 34 645Z 这样的 8601 时间戳字符串会返回一个 失效日期 Cloudwatch Log Insights 中出现错误 有
  • 在 React Native 中使用 python 库

    我想在 React Native 应用程序中使用一些 Python 库 用于机器学习等 是否可以在不使用服务器的情况下完成此操作 即在移动应用程序中运行 Python 代码 从而不需要互联网 React Native 应用程序由两个主要部分
  • 原子比较、多处理器、C/C++ (Linux)

    我在多台共享内存 x 中有一个变量处理器 system void MyFunction volatile int x if x 0 do something 其他进程 可能在不同的处理器上 将使用 gcc 内置原子操作 例如 sync bo
  • 计算 TimescaleDB 中值相对于上次读数的变化

    我在 TimescaleDB 中存储了有关一组电池的时间序列数据 这些数据记录了每个电池每次的 充电状态 我没有测量流入和流出的流量 只有瞬时充电状态 从这些数据中 我想找到每次充电状态的变化 稍后我将把它存储在几个小时内的消耗中 在做了一
  • 让节点不退出的更好方法?

    在节点程序中 我正在从文件流中读取fs createReadStream 但是当我暂停流时 程序退出 我认为程序会继续运行 因为文件仍然打开 只是没有被读取 目前 为了让它不退出 我设置了一个不执行任何操作的间隔 setInterval f
  • Apache Ant 在运行此脚本时被冻结

    我想显示 ant 脚本的密码输入对话框 这是我的代码构建 xml
  • LSTM中的input_shape和batch_input_shape有什么区别

    这只是设置同一事物的不同方式还是它们实际上具有不同的含义 和网络配置有关系吗 在一个简单的例子中 我无法观察到以下之间的任何区别 model Sequential model add LSTM 1 batch input shape Non