为什么为卷积神经网络给出张量维度？ - TensorFlow

2024-02-28

我在理解使用 TensorFlow 设置卷积神经网络时使用的张量的维度时遇到了一些困难。例如，在this https://www.tensorflow.org/versions/r0.11/tutorials/mnist/pros/index.html#build-a-multilayer-convolutional-network教程中，28x28 MNIST 图像表示如下：

import TensorFlow as tf

x = tf.placeholder(tf.float32, shape=[None, 784])
x_image = tf.reshape(x, [-1,28,28,1])

假设我有十个训练图像，上面的重塑使我的输入x_image二十八个 28 维列向量的十个子集合的集合。

使用起来似乎更自然

x_image_natural = tf.reshape(x, [-1,28,28])

相反，它将返回 10 个 28x28 矩阵。

插图：

a = np.array(range(8))
opt1 = a.reshape(-1,2,2,1)
opt2 = a.reshape(-1,2,2)
print opt1
print opt2

# opt1 - column vectors
>>[[[[0]
>>[1]]

>>[[2]
>>[3]]]


>>[[[4]
>>[5]]

>>[[6]
>>[7]]]]

# opt2 - matrices
>>[[[0 1]
>>[2 3]]

>>[[4 5]
>>[6 7]]]

同样，是否有一种直观的方法来理解为什么卷积层具有维度(height_of_patch, width_of_patch, num_input_layers, num_output_layers)？转置似乎更直观，因为它最终是补丁大小矩阵的集合。

* EDIT *

我其实很好奇why张量的维度按原样排序。

对于输入 X，我们为什么不使用

x_image = tf.reshape(x, [-1,i,28,28])

这将创建batch_size，i- 大小的 28x28 矩阵数组（其中i是输入层数）？

同样，为什么权重张量的形状不是这样的(num_output_layers, num_input_layers, input_height, input_width)（这似乎更直观，因为它是“补丁矩阵”的集合。）

一层二维卷积的工作方式是通过在输入上滑动二维窗口/过滤器/补丁来计算“特征图”。放入此 MNIST 数据集的上下文中，输入是灰度图像，因此它们的维度为 [height, width, num_channels] ([28, 28, 1])。假设您决定使用 3x3 窗口/滤波器/补丁，这决定了该卷积层权重的前两个维度（height_of_path=3，width_of_path=3）。这样做在高度和宽度维度上滑动的原因是为了共享神经元并保持统计不变性（无论出现在图片中的哪个位置，鸟仍然是鸟），此外，它还带来了一些降低计算量的好处。每个通道/深度都被认为携带独特的信息（在 RGB 通道的情况下，R=255 和 G=255 表示完全不同的东西），我们不想在不同的深度/通道之间共享神经元。因此，卷积层权重的第三维与输入的深度维度相同（MNIST 情况下第一个卷积层中的 num_input_layers=1）。卷积层权重的最后一个维度是用户可以决定的超参数。这个数字决定了这个卷积层之后会产生多少个特征图。并且该值越大，计算成本就越高。

快速总结。对于任何 2D 卷积层，假设它接收维度为以下的输入 X：

X - [批量大小、输入高度、输入宽度、输入深度]

那么该卷积层的权重 w 的维度为：

w - [过滤器高度、过滤器宽度、输入深度、输出深度]

该卷积层输出 y 的维度为：

y - [批量大小、输出高度、输出宽度、输出深度]

通常，人们会设置filter_height=filter_width，并且经常设置filter_height=3,5,7。output_深度是用户可以决定的超参数。 output_height和output_width是根据input_height、input_weight、filter_height、filter_width、滑动选择和填充选择等确定的。

如需了解更多信息，我鼓励您阅读斯坦福 CS231 关于 ConvNet 的笔记 http://cs231n.github.io/convolutional-networks/#conv，我个人觉得解释得很清楚，很有见地。

编辑：维度的顺序

就维度顺序而言，据我所知，它更多的是一种约定，而不是“正确”或“错误”。对于一个示例输入，我认为按照 [高度、宽度、通道/深度] 的顺序对其尺寸进行排序是很直观的。事实上，您可以简单地将具有此维数顺序的样本矩阵粘贴到import matplotlib.pyplot as plt; plt.imhow(sample_matrix)绘制人眼友好的图像。我认为前三个重量尺寸顺序遵循[高度、宽度、深度]的常规顺序。我推测这种一致性使得执行卷积运算变得容易，因为我读到此步骤的常见实现之一是将 3D 张量展平为 2D 并使用下面的矩阵乘法库。我想您可以将维度的顺序更改为您想要的方式，只要正确完成维度的实际计算即可。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

为什么为卷积神经网络给出张量维度？ - TensorFlow 的相关文章

如何在google colab中降级到tensorflow-gpu版本1.12

我正在运行一个仅与旧版本的tensorflow GPU兼容的GAN 因此我需要将google colab中的tensorflow gpu从1 15降级到1 12 我尝试使用本中建议的以下命令thread https stackoverflo
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
预训练 inception v3 模型的层名称（tensorflow）[重复]

这个问题在这里已经有答案了任务是获取a的每层输出预训练的 cnn inceptionv3 https www tensorflow org versions master tutorials image recognition index
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
张量流如何处理无法存储在一个盒子中的大变量

我想通过训练超过十亿特征维度的数据来训练 DNN 模型因此第一层权重矩阵的形状将为 1 000 000 000 512 这个权重矩阵太大无法存储在一个盒子中目前有没有什么解决方案来处理这么大的变量例如将大的权重矩阵划分为多个框 Up
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
pip：需要将包名称tensorflow-gpu更改为tensorflow

我正在尝试将具有 GPU 支持的张量流安装到 conda 环境中我使用命令 pip install ignore installed upgrade https storage googleapis com tensorflow linu
我可以在我的机器上同时安装 python 2.7 和 3.5 的tensorflow吗？

目前我通过 Anaconda 在我的机器 MAC OX 上安装了 Python 2 7 Python 3 5 Tensorflow for Python 3 5 我也想在我的机器上安装 Tensorflow for Python 2 7 当
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
使用大数据集在 Google Colab TPU 上训练 seq2seq 模型 - Keras

我正在尝试使用 Google Colab TPU 上的 Keras 训练用于机器翻译的序列到序列模型我有一个可以加载到内存中的数据集但我必须对其进行预处理才能将其提供给模型特别是我需要将目标单词转换为一个热向量并且在许多示例中我
使用队列从多个输入文件中统一采样

我的数据集中的每个类都有一个序列化文件我想使用队列来加载每个文件然后将它们放入 RandomShuffleQueue 中这样我就可以从每个类中获得随机的示例组合我认为这段代码会起作用在此示例中每个文件有 10 个示例 filen
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
Tensorflow 对 Python3.11 的支持

我在 Windows10 PC 上安装了 Python3 11 0 尝试使用以下命令安装张量流 pip install tensorflow 给出错误访问tensorflow网站后我意识到它仅支持3 7 3 10 我应该降级 pytho
Tensorflow 与 Keras 的兼容性

我正在使用 Python 3 6 和 Tensorflow 2 0 并且有一些 Keras 代码 import keras from keras models import Sequential from keras layers impo
LSTM - 一段时间后预测相同的常数值

我有一个变量我想预测未来 30 年的情况不幸的是我没有很多样品 df pd DataFrame FISCAL YEAR 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 199
如何从 Pandas DataFrame 转换为 Tensorflow BatchDataset 以进行 NLP？

老实说我想弄清楚如何转换数据集格式 pandasDataFrame或 numpy 数组转换为简单文本分类张量流模型可以训练用于情感分析的形式我使用的数据集类似于 IMDB 包含文本和标签正面或负面我看过的每个教程要么以不同的方式
如何在 Tensorflow 对象检测 API 中查找边界框坐标

我正在使用 Tensorflow 对象检测 API 代码我训练了我的模型并获得了很高的检测百分比我一直在尝试获取边界框坐标但它不断打印出 100 个奇怪数组的列表经过在线广泛搜索后我发现数组中的数字意味着什么边界框坐标相对于底层
移动设备上的 TensorFlow（Android、iOS、Windows Phone）

我目前正在寻找不同的深度学习框架特别是用于训练和部署卷积神经网络要求是它可以在带有 GPU 的普通 PC 上进行训练但训练后的模型必须部署在三个主要的移动操作系统上即 Android iOS 和 Windows Phone Ten

随机推荐

Lucene TermQuery 和 QueryParser

我有 2 个 lucene 查询 1 Term term new Term Properties LUCENE APPARTMENT ADDRESS address Query termQuery new TermQuery term To
Flutter showDialog 未在 PopupMenuItem 点击上显示

我在用着PopupMenuButton在我的应用程序中我想要showDialog在点击一个PopupMenuItem My PopupMenuItem PopupMenuItem child Text Show dialog onTap
setState 方法导致 Reactjs 函数中的结果无限循环

该代码显示数组中的用户记录我还创建了一个updateCount 功能对内容显示的用户进行计数我可以看到计数结果alerted并在控制台中现在我想显示计数结果为此我初始化setState 内的方法updateCount功能 upda
PHP 和 Java 中的 SHA256

我正在将一些 Java 代码移植到 PHP 代码在Java中我有一个哈希SHA256代码如下 public static String hashSHA256 String input throws NoSuchAlgorithmExcep
从 Action 指令创建 DynamicMethod

我正在使用 DynamicMethod 并旨在执行以下操作我有一个 Action 从中可以使用字节形式获取 IL 代码GetILAsByteArray 从这个字节我想创建一个动态方法并执行这是我正在尝试做的事情的一个例子 class P
在 Windows 10 上使用 nuwen MinGW 的 C++17 文件系统

我想尝试 C 17 中的新文件系统库因此尝试复制来自 cppreference com 的 std filesystem current path 示例 https en cppreference com w cpp filesystem
PDO 语句会自动转义吗？

PHP PDO 语句是自动转义的还是仅准备好的语句例如假设 username and password是用户输入以下代码是否安全或者是否容易受到注入 dbh new PDO mysql host localhost dbname
在 std::wstring 中查找方法

我已声明Wstring如下 wstring strID 当我尝试查找出现的子字符串时如下所示 int index strID find LABS 我收到如下错误 error C2664 unsigned int std basic str
如何在 python 中使用可变宽度高斯函数执行卷积？

我需要使用高斯执行卷积但是高斯的宽度需要改变我不进行传统的信号处理而是需要根据设备的分辨率获取完美的概率密度函数 PDF 并涂抹它例如假设我的 PDF 一开始是尖峰增量函数我将其建模为非常窄的高斯经过我的设备运行后它将
Spring中如何只实现CrudRepository的特定方法？

我在用着CrudRepositoryspring data jpa 只定义一个实体的接口然后拥有所有标准的 CRUD 方法而无需显式提供实现例如 public interface UserRepo extends CrudReposi
批量插入问题

我在客户端有一个 CSV 文件我想开发一个 C 应用程序来将数据批量插入到数据库的表中以尽量减少日志输出我对是否在客户端使用 ADO NET 调用数据库服务器中的存储过程感到困惑什么样的代码需要在客户端开发什么样的代码需要在服务器
如何在快速路线中调用不同的 REST API？

我有一个使用多种路由创建的express js REST API 我想创建一个路由来调用另一个 REST API 然后返回结果理想情况下它应该类似于以下内容 router post CreateTicket cors corsOptio
UIImagePickerController - 相机未准备好

我正在开发一个录制视频的 iPhone 应用程序我创建一个 UIImagePickerController 将其限制为视频录制然后以编程方式要求相机启动VideoCapture 不幸的是当我运行该应用程序时我在控制台中看到以下内容
为什么我无法使用 python 建立与rabbitMQ的连接？

我正在学习如何使用rabbitMQ 我正在 MacBook 上运行rabbit MQ 服务器并尝试与 python 客户端连接我按照安装说明进行操作here http www rabbitmq com install homebrew h
DynamoDB - 新放入的项目未反映在扫描中

我在 DynamoDB 扫描方面遇到问题我使用以下命令将新项目添加到表中putItem method AmazonClientManager ddb putItem request 但是当我尝试使用扫描方法进行扫描时该项目不会出现在结
如果 xmlcharrefreplace 和 backslashreplace 不起作用，我应该如何解码字节（使用 ASCII）而不丢失任何“垃圾”字节？

我有一个网络资源它返回给我的数据根据规范应该是 ASCII 编码的字符串但在极少数情况下我会收到垃圾数据例如返回一种资源b xd3PS 90AC 而另一个资源对于相同的键返回b PS 90AC 第一个值包含非 ASCII 字符
将迭代器传递给 any 来执行以提高速度，为什么？

问题总结如下是的我知道some这些答案我可以向其他人挥手致意但我真的很想在这里了解实质内容这到底是个好主意吗这个是not below 我想知道地图是否真的增加了速度提升为什么为什么要将迭代器传递给any http docs
如何使用按钮打开新窗口[重复]

这个问题在这里已经有答案了如何打开一个新窗口允许我从以下代码中选择时间我尝试使用 connect 函数连接到 windows2 但似乎出现错误我想通过一个保管箱选择时间我可以在上午 10 点上午 11 点等之前选择时间有谁知道
对大型数据集执行 PCA

在 CountVectorizer 变为 40 845 X 218 904 一元组之后我遇到了一个只有 2 个类和我的训练数据集矩阵大小的文档分类问题在考虑卦的情况下它可以达到 40845 X 3 931 789 有没有一种方法可以
为什么为卷积神经网络给出张量维度？ - TensorFlow

我在理解使用 TensorFlow 设置卷积神经网络时使用的张量的维度时遇到了一些困难例如在this https www tensorflow org versions r0 11 tutorials mnist pros index

为什么为卷积神经网络给出张量维度？ - TensorFlow

为什么为卷积神经网络给出张量维度？ - TensorFlow 的相关文章

随机推荐

热门标签