如何计算 CNN 第一个线性层的维度

2024-04-27

目前，我正在使用 CNN，其中附加了一个完全连接的层，并且我正在使用尺寸为 32x32 的 3 通道图像。我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积/最大池层的输入。我希望能够计算第一个线性层的尺寸，仅给出最后一个 conv2d 层和 maxpool 的信息。换句话说，我希望能够计算该值，而不必使用之前层的信息（因此我不必手动计算非常深的网络的权重维度）

我还想了解可接受尺寸的计算，例如这些计算的推理是什么？

由于某种原因，这些计算有效并且 Pytorch 接受了这些尺寸：

val = int((32*32)/4)
self.fc1 = nn.Linear(val, 200)

这也有效

self.fc1 = nn.Linear(64*4*4, 200)

为什么这些值有效？这些方法的计算是否有限制？例如，我觉得如果我要改变步幅距离或内核大小，这就会中断。

这是我正在使用的一般模型架构：

# define the CNN architecture
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # convolutional layer
        self.conv1 = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, padding=1)
        # max pooling layer
        self.pool = nn.MaxPool2d(2, 2)  


        self.conv2 = nn.Conv2d(in_channels=16, out_channels=32,kernel_size=3)
        self.pool2 = nn.MaxPool2d(2,2)

        self.conv3 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3)
        self.pool3 = nn.MaxPool2d(2,2)
        
        self.dropout = nn.Dropout(0.25)

        # H*W/4
        val = int((32*32)/4)
        #self.fc1 = nn.Linear(64*4*4, 200)
        ################################################
        self.fc1 = nn.Linear(val, 200)  # dimensions of the layer I wish to calculate
        ###############################################
        self.fc2 = nn.Linear(200,100)
        self.fc3 = nn.Linear(100,10)


    def forward(self, x):
        # add sequence of convolutional and max pooling layers
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool2(F.relu(self.conv2(x)))
        x = self.pool3(F.relu(self.conv3(x)))
        #print(x.shape)
        x = torch.flatten(x, 1) # flatten all dimensions except batch
        
        x = F.relu(self.fc1(x))
        x = self.dropout(x)
        x = F.relu(self.fc2(x))
        x = self.dropout(x)
        x = self.fc3(x)

        return x

# create a complete CNN
model = Net()
print(model)

谁能告诉我如何计算第一个线性层的尺寸并解释其推理？

给定输入空间维度 w，2d 卷积层将在该维度上输出具有以下大小的张量：

int((w + 2*p - d*(k - 1) - 1)/s + 1)

完全相同的情况也适用于nn.MaxPool2d https://pytorch.org/docs/stable/generated/torch.nn.MaxPool2d.html。作为参考，您可以在此处查找PyTorch 文档 https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html.

模型的卷积部分由三个 (Conv2d + MaxPool2d) 块组成。您可以使用此辅助函数轻松推断输出的空间维度大小：

def conv_shape(x, k=1, p=0, s=1, d=1):
    return int((x + 2*p - d*(k - 1) - 1)/s + 1)

递归调用它，您将得到最终的空间维度：

>>> w = conv_shape(conv_shape(32, k=3, p=1), k=2, s=2)
>>> w = conv_shape(conv_shape(w, k=3), k=2, s=2)
>>> w = conv_shape(conv_shape(w, k=3), k=2, s=2)

>>> w
2

由于您的卷积具有平方内核和相同的步幅、填充（水平等于垂直），因此上述计算适用于张量的宽度和高度尺寸。最后看最后一个卷积层conv3，它有 64 个过滤器，在全连接层之前每批元素的最终元素数量为：w*w*64, i.e. 256.

但是，没有什么可以阻止您调用图层来找出输出形状！

class Net(nn.Module):
    def __init__(self):
        super().__init__()
        
        self.feature_extractor = nn.Sequential(
            nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2, 2),
            nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3),
            nn.ReLU(),
            nn.MaxPool2d(2,2),
            nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3),
            nn.ReLU(),
            nn.MaxPool2d(2,2),
            nn.Flatten())

        n_channels = self.feature_extractor(torch.empty(1, 3, 32, 32)).size(-1)

        self.classifier = nn.Sequential(
            nn.Linear(n_channels, 200),
            nn.ReLU(),
            nn.Dropout(0.25),
            nn.Linear(200, 100),
            nn.ReLU(),
            nn.Dropout(0.25),
            nn.Linear(100, 10))

    def forward(self, x):
        features = self.feature_extractor(x)
        out = self.classifier(features)
        return out

model = Net()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何计算 CNN 第一个线性层的维度的相关文章

Python BS4 Scraper 仅返回每个页面的前 9 个结果

我让这段代码按预期工作只是它并没有完全按预期工作一切似乎都很顺利直到我检查了我的 csv 输出文件并注意到我每页只得到前 9 个结果每页应该有 40 个结果因此我得到的结果少于预期的 25 有什么想法吗 import reques
用于在 Windows 中自动执行桌面活动的 Python 代码

我想使用 Python 在 Windows 环境中自动化桌面活动怎样才能做到呢一些例子也会有帮助我所说的桌面活动是指控制鼠标和键盘访问活动窗口属性双击桌面上的图标最小化和最大化窗口通过键盘向输入弹出窗口输入数据等操作看一下S
如何将一组重叠范围划分为不重叠范围？

假设您有一组范围 0 100 一 0 75 b 95 150 c 120 130 d 显然这些范围在某些点上重叠您将如何剖析这些范围以生成不重叠范围的列表同时保留与其原始范围相关的信息在本例中为范围后面的字母例如运行算法后的上述
“初始化 MCI 时出现问题”播放声音问题

我正在尝试使用 Playsound 播放代码文件夹中的文件但是每次运行代码时它似乎都能够调用该文件但我总是收到以下输出 playsound PlaysoundException Error 277 for command open p
动态添加jinja模板

我有一个 jinja 模板它是一组 div 标签内的唯一内容 div include temppage html div 当我按下按钮时我想用其他内容替换标签之间的所有内容我希望用另一个 jinja 模板 include realpa
Python：按条件绘制多个正/负条形图

这是我第一次用 python 绘制条形图我的 df 操作 key descript score 0 noodles taste 5 1 noodles color 2 2 noodles health 3 3 apple color 7
具有相同内容的拆分列表

例如我有以下列表 contents i have two pens prices 5 made in and 我想将它们分开使其具有与以下内容相同的内容 array 0 i have two pens array 1 prices 5 a
AES 会话密钥的 RSA 解密失败，并显示“AttributeError：‘bytes’对象没有属性‘n’”

我正在努力在 Python 3 6 上从 PyCryptodome 实现公钥加密当我尝试创建对称加密密钥并加密解密变量时一切正常但是当我引入 RSA 和 PKCS1 OAEP 的那一刻一切就都顺理成章了 session key加密
如何使用Python在没有窗口的情况下在屏幕上显示文本

问题我需要在没有窗口的情况下直接将文本写入屏幕文本需要显示在所有其他窗口和全屏应用程序之上并且不应以任何方式单击或交互 Example The text doesn t need to have a transparent backg
如何在 Mac OS X 10.8 上安装 hg Convert 所需的 python subversion 绑定？

我正在寻找一种解决方案最好是干净且简单的以启用hg convert使用 SVN 存储库在 OS X 10 8 上工作目前如果您尝试转换 SVN 存储库您将得到一个could not load Subversion python b
在 LINUX 上使用 Python 连接到 OLAP 多维数据集

我知道如何在 Windows 上使用 Python 连接到 MS OLAP 多维数据集嗯至少有一种方法通常我使用 win32py 包并调用 COM 对象进行连接 import win32com client connection wi
python 没有名为serial的模块

我的 python 程序有问题我编写了程序来将数据温度从 arduino 获取到我的树莓派 sqlite 数据库但它在第 4 行导入串行处给了我一个错误提示 ImportError 没有名为串行的模块我使用 python3
构建一个简单的解析器，能够使用 PyParse 解析不同的日期格式

我正在构建一个简单的解析器它接受如下查询显示 fizi 从 2010 年 1 月 1 日到 2006 年 2 月 11 日的提交到目前为止我有 class QueryParser object def parser self stmn
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
如何编辑 QProgressBar 的样式表

我无法在我的应用程序中编辑进度条的颜色仅编辑文本颜色 pyhton 3 9 PySide6 QT Creator 7 0 2 Python应用程序 https i stack imgur com 6hKFI png import sys
为什么你可以在字符串上重载 __radd__ 而不是 __rmod__ ？

在Python中您可以覆盖右和左加法运算符
Unpivot Pandas 数据

我目前有一个DataFrame布置为 Jan Feb Mar Apr 2001 1 12 12 19 2002 9 2003 我想将数据逆透视使其看起来像 Date Value Jan 2001 1 Feb 2001 1 Mar 200
为什么计算大整数阶乘的“分而治之”方法如此快？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何在 Python 中将 .docx 转换为 .txt

我想将大量 MS Word 文件转换为纯文本格式我不知道如何在 Python 中做到这一点我在网上找到了以下代码我的路径是本地路径所有文件名都类似于 cx xxx 即 c1 000 c1 001 c2 000 c2 001 等 fr
将文本文件转换为 plink PED 和 MAP 格式

我有以下数据其中的一小部分名为 short2 pre snp tumor txt rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G T 1 1 2 2 1 rs608879

随机推荐

curl:(7)无法连接到192.168.99.100端口31591：连接被拒绝

这些是我的豆荚 hello kubernetes 5569fb7d8f 4rkhs 0 1 ImagePullBackOff 0 5d2h hello minikube 5857d96c67 44kfg 1 1 Running 1 5d2h
“char *_EXFUN(index,(const char *, int));”的含义

我发现这是 eclipse idexer intelisence 的一个命题无论它叫什么就是这样 char EXFUN index const char int 首先它看起来像一个返回 char 指针的函数但参数如果它是一个函数
使用 M1 在 dockerized Linux 上安装节点画布

我有以下Dockerfile我在 MacBook Air M1 上运行所以在 docker 中我有带有 M1 的 linux FROM node 16 7 0 WORKDIR work CMD while true do sleep 10
Spirit qi 解析为嵌套函数的抽象语法树

我正在尝试使用 boost 的spirit qi 解析器创建一个解析器它正在解析包含三种类型值的字符串常量变量或函数这些函数可以相互嵌套测试字符串是f a b f g z x g x h x c where a e是常数 f r是
如何获得修改任何参数的函数？

我的目标我必须创建一个将两个分数相加的函数我定义了一个新的struct typedef 称为fraction 该函数不能有返回类型fraction 它一定要是void 因此它必须修改输入的参数之一我该如何实现这一点也许是指点您将如
从状态栏中删除通知图标

我在状态栏中显示一个图标现在我想在打开该内容时立即删除该图标一段时间后如果我们收到任何警报该图标将再次显示我怎样才能做到这一点使用NotificationManager取消您的通知您只需提供您的通知 ID https devel
将一个表的所有行复制到另一个表

我有两个数据库MySQL and SQL Server 我想在其中创建表SQL Server并复制表中的所有行MySQL到新表中SQL Server 我可以在中创建表SQL Server与一样MySQL 使用以下代码 List
自 2012 年以来，WinSock 注册 IO 性能是否有所下降？

我最近使用 MS 为该 API 提供的稍微可接受的文档编写了基于 WinSock Registered IO RIO 的 UDP 接收最终的性能非常令人失望单套接字性能有些稳定约为每秒 180k 数据包使用多个 RSS 队列即多个
选择从查询中检索列名称的列

我正在寻找一种优雅的方法来从表 A 中选择列其中列名是从表 B 上的查询中检索的对表 B 的查询结果 col01 表 A 有几个名为 col01 col02 col03 最终查询应该是为了结果 result from B effecti
根据区域设置获取货币 ISO 4217 代码

假设我用以下命令解析 HTTP Accept Language 标头Locale acceptFromHttp http www php net manual en locale acceptfromhttp php是否有一种简单可靠的方法
Java 中的字符串拆分：可变长度的前向和后向

我想使用数字作为分隔符来破坏 Java 中的字符串但保留数字一些研究表明使用 String 中的 split method 是合适的但我不明白如何做到这一点为了进一步解释我的问题我将使用一个例子 Input 20 55 50 0
使用 VBA 从分布生成随机数到内存

我想从 VBA Excel 2007 中选定的分布生成随机数我目前正在使用带有以下代码的分析工具库 Application Run ATPVBAEN XLAM Random A B C D E F Where A how many var
如何在 POSIXct 中获取一天的开始

我的一天开始于2016 03 02 00 00 00 Not 2016 03 02 00 00 01 我如何开始一天的工作POSIXct当地时间我的困惑可能来自于 R 认为这是 2016 03 01 的结束日期这一事实鉴于 R 使用 I
如何减少基于位置的 Android 应用程序的功耗？

如何减少应用程序的功耗我可以使用什么代码来实现这个有几种不同的方法可以减少尝试获取位置信息时所用的电量 Use the 最后已知位置 http developer android com reference android locati
HtmlAgilityPack 设置节点 InnerText

我想用其他文本替换 HTML 标签的内部文本我正在使用 HtmlAgilityPack我使用这段代码来提取所有文本 HtmlDocument doc new HtmlDocument doc Load some path foreach
Spring MVC：在表单处理操作中有多个@ModelAttribute

上下文我在两个实体之间有一个简单的关联 Category and Email NtoM 我正在尝试创建用于浏览和管理它们的网络界面要浏览类别并将电子邮件添加到该类别中我使用包含以下内容的控制器 RequestMapping带有类别 I
使用线程或异步任务的位图工厂动画

这个问题是我在这个论坛上提出的多个问题的后续问题这些问题涉及为什么我一直在尝试的动画不起作用简单回答一下之前的问题我的动画作为 2 个班级的单独项目工作但无法工作当包含在我的包含多个类的项目中时使用 finish 类关闭了导致我
如何在 Visual Studio Code 中的事件上使用 JSDoc 自定义 EventEmitter？

我一直致力于 Node js 项目只是注意到 Visual Studio Code 提供了有关基本 EventEmitter 对象的信息所以我想也应该可以为自定义提供 JSDoc 我已经尝试遵循 JSDochttp usejsdoc o
sql查询使用pivot动态添加会计月份

ALTER PROCEDURE dbo sp GetDMActivityTrackerReport CoachId VARCHAR 7 Month INT FiscalYear INT AS BEGIN INSERT FiscalMonth
如何计算 CNN 第一个线性层的维度

目前我正在使用 CNN 其中附加了一个完全连接的层并且我正在使用尺寸为 32x32 的 3 通道图像我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积最大池层的输入我希望能够计算第一个线性层的尺寸仅给出

如何计算 CNN 第一个线性层的维度

如何计算 CNN 第一个线性层的维度 的相关文章

随机推荐

热门标签

如何计算 CNN 第一个线性层的维度的相关文章