来自学习变量的预期张量流模型大小

2023-11-22

在训练用于图像分类任务的卷积神经网络时，我们通常希望我们的算法能够学习将给定图像转换为其正确标签的滤波器（和偏差）。我有几个模型试图在模型大小、操作数量、准确性等方面进行比较。但是，从张量流输出的模型的大小，具体来说是模型.ckpt.数据存储图中所有变量值的文件不是我所期望的。事实上，它似乎大了三倍。

为了直接解决问题，我将根据我的问题thisJupyter 笔记本。下面是定义变量（权重和偏差）的部分：

# Store layers weight & bias
weights = {
# 5x5 conv, 1 input, 32 outputs
'wc1': tf.Variable(tf.random_normal([5, 5, 1, 32]),dtype=tf.float32),
# 5x5 conv, 32 inputs, 64 outputs
'wc2': tf.Variable(tf.random_normal([5, 5, 32, 64]),dtype=tf.float32),
# fully connected, 7*7*64 inputs, 1024 outputs
'wd1': tf.Variable(tf.random_normal([7*7*64, 1024]),dtype=tf.float32),
# 1024 inputs, 10 outputs (class prediction)
'out': tf.Variable(tf.random_normal([1024, num_classes]),dtype=tf.float32)
}

biases = {
'bc1': tf.Variable(tf.random_normal([32]),dtype=tf.float32),
'bc2': tf.Variable(tf.random_normal([64]),dtype=tf.float32),
'bd1': tf.Variable(tf.random_normal([1024]),dtype=tf.float32),
'out': tf.Variable(tf.random_normal([num_classes]),dtype=tf.float32)
}

我添加了几行以便在训练过程结束时保存模型：

# Save the model
save_path = saver.save(sess, logdir+"model.ckpt")
print("Model saved in file: %s" % save_path)

将所有这些变量相加，我们期望得到模型.ckpt.数据文件大小为 12.45Mb（我通过计算模型学习的浮点元素数量，然后将该值转换为兆字节来获得此文件）。但！这.data保存的文件大小为 39.3Mb。为什么是这样？

我对更复杂的网络（ResNet 的变体）采用了相同的方法，并且我预期的模型。数据大小也比实际大小小约 3 倍.data文件是.

所有这些变量的数据类型都是float32。

将所有这些变量加起来，我们预计会得到一个大小为 12.45Mb 的 model.ckpt.data 文件

传统上，大多数模型参数都位于第一个全连接层，在这种情况下wd1。仅计算其大小即可得出：

7*7*128 * 1024 * 4 = 25690112

... or 25.6Mb. Note 4系数，因为变量dtype=tf.float32, i.e. 4每个参数的字节数。其他层也会影响模型大小，但影响不大。

如您所见，您的估计12.45Mb is 有点关闭（每个参数你使用 16 位吗？）。检查点还存储一些一般信息，因此开销约为 25%，仍然很大，但不是 300%。

[Update]

该模型实际上具有 FC1 形状层[7*7*64, 1024]，正如已澄清的那样。所以上面计算出来的尺寸应该是12.5Mb，的确。这让我更仔细地查看保存的检查点。

检查之后，我注意到了我最初错过的其他大变量：

...
Variable_2 (DT_FLOAT) [3136,1024]
Variable_2/Adam (DT_FLOAT) [3136,1024]
Variable_2/Adam_1 (DT_FLOAT) [3136,1024]
...

The Variable_2正是wd1，但是 Adam 优化器还有 2 个副本。这些变量是由创建的Adam 优化器，他们被称为slots并按住m and v累加器对于所有可训练变量。现在总大小有意义了。

您可以运行以下代码来计算图形变量的总大小 -37.47Mb:

var_sizes = [np.product(list(map(int, v.shape))) * v.dtype.size
             for v in tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES)]
print(sum(var_sizes) / (1024 ** 2), 'MB')

所以开销实际上很小。额外的大小是由于优化器造成的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

来自学习变量的预期张量流模型大小的相关文章

是否有与 Java 的 IdentityHashMap 等效的 Python 版本？

我正在遍历一个数据结构想要构建一个映射 X gt Y 的字典其中 X 是我正在遍历的数据结构中的一个字段 Y 是我正在动态构建的数据结构中的一个字段 X 是不可散列的类型 Java的IdentityHashMap的目的是模拟动态字段由
Pandas 中的索引如何工作？

我是Python新手这似乎是一个需要问的基本问题但我真的很想了解这里发生了什么 import numpy as np import pandas as pd tempdata np random random 5 myseries on
如何配置 VS Code 以便能够单步执行调试 Python 脚本时加载的共享库 (.so)？

从命令行使用 gdb 我可以在加载共享库时中断知道我有共享库的源代码如何在 VS Code 中获得相同的行为对我来说它以某种方式起作用这是我的设置 Ubuntu 18 04 调试我从 Python3 加载的 C 共享库更具体地说
Pandas groupby：根据另一列中的值更改一列中的值

我会尽力解释我的问题但我是 Pandas 新手所以请耐心等待我有一个 Pandas 数据框df Random ID Seq ID Type Seq Token 0 8 1 User First 1 8 2 Agent Second 2
如何使用Python从pdf文件中删除页面？

我有一些超过 500 页的 pdf 文件但每个文件中只需要几页有必要保留文档的标题页我确切地知道程序应该删除的页数如何使用安装在 MS Visual Studio 上的 Python 2 7 环境来完成此操作尝试使用PyPDF2
加快 pandas groupby 中的滚动总和计算

我想按组计算大量组的滚动总和但我很难快速地完成它 Pandas 内置了滚动和展开计算器的方法这是一个例子 import pandas as pd import numpy as np obs per g 20 g 10000 obs g
我怎样才能用Python中的语音识别来检测一个单词

我知道如何用 Python 检测语音但这个问题更具体如何让 Python 只监听一个单词然后如果 Python 可以识别该单词则返回 True 我知道我可以让 Python 一直监听然后做出类似的东西伪代码 while True
rpy2 传递 python 保留关键字参数

我试图通过 python 使用 r 的密度函数并且必须将 from to 参数传递给密度函数然而由于 from 这个词是Python中的保留关键字我该如何实现这一点呢谢谢这是到目前为止的代码 r density robjects
使用 Python 访问 MP3 音乐数据

我正在尝试编写一个 Python 脚本用于使用歌曲的数据作为比较的基础来搜索重复的 mp3 4 文件我的情况涉及许多文件名相似但 ID3 标签不同的 mp3 4 文件起初我尝试循环并使用 md5 来查找重复文件忽略文件名当然当
有一些 numpy.map 吗？

我可能在这里遗漏了一些明显的东西但我遗漏了一个功能numpy map 这与 Python 的相同map函数但将输出收集在numpy大批例如我可以有一个图像生成器genImage i 生成 2D 图像大小 m n 基于单个输入我想
HTML 和 BeautifulSoup：当结构事先不知道时如何迭代解析？

我从一个简单的 HTML 结构开始如下所示感谢 alecxe 的帮助我能够创建这个 JSON 字典 u Outer List u Inner List u info 1 u info 2 u info 3 使用他的代码 from bs
在 python 中以半小时为增量创建选择列表

我正在尝试创建一个
如何将字符串转换为二进制？

我需要一种方法来获取 python 中字符串的二进制表示形式例如 st hello world toBinary st 是否有一个模块可以以某种巧妙的方式执行此操作像这样的东西吗 gt gt gt st hello world gt g
在 C++ 中运行 python [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个用 C 编写的应用程序和一个测试系统也是用 C 编写的测试系统非常复杂并且很难改变我只想做一些小的改变我的班级是这样的
如何为 matplotlib 中已绘制的线设置标签？

在我的代码中我已经执行了 ax plot x y b 并且需要能够在事后设置相应行的标签以达到与我相同的效果 ax plot x y b label lbl 有没有办法在 Matplotlib 中做到这一点如果你抓住了line2D创建对
无法使用 pandas 获取平均日期

我有一个时间序列数据集我想从中获取平均日期这是一个人为的示例显示 pandas datetime64 对象的溢出错误 import pandas as pd import numpy as np rng pd date range 2
将人员分配到床位 - 自动化方法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我每年都会帮助举办青年营将与会者分配到卧室是一项艰巨的任务有 92 个卧室活动持续一周与会者停留的时间长短不一而且床需要重复
我可以在 psycopg2 中使用 md5 身份验证吗？

经过两个小时的阅读文档源代码和帮助线程后我放弃了我无法让 psycopg2 使用 md5 字符串进行身份验证根据this http bytes com topic python answers 42597 psycopg authe
dump() 缺少 1 个必需的位置参数：python json 中的“fp”

我正在尝试美化 json 格式但收到此错误 import requests as tt from bs4 import BeautifulSoup import json get url tt get https in pinterest
python函数中的Return语句不返回任何内容[重复]

这个问题在这里已经有答案了我不明白退货和打印之间的区别有人告诉我应该在函数语句中使用 return 但它不会返回任何内容所以我一直在函数中使用 print 但我想了解为什么我的函数中的 return 语句不起作用 def triang

随机推荐

检查文件名是否包含空格的文件是否存在

我正在 Bash 中测试文件是否存在其中文件名使用转义 printf q FNAME 这总是会产生错误if f FNAME 如下面评论的示例所示如何测试包含空格和其他字符的文件名 usr bin env bash code used i
AddType application/x-httpd-php .php 未渲染 PHP

添加此代码 AddType application x httpd php php after AddEncoding x compress Z AddEncoding x gzip gz tgz If the AddEncoding di
当处理器尝试访问不存在的物理地址时会发生什么？

想象一台内存小于 3 GB 的 32 位 x86 计算机其 CPU 设置为禁用分页和平段描述符 0x0作为基础 0xffffffff作为数据和代码的有效限制当ring0中的指令尝试使用a时会发生什么mov指令引用不受任何内存地址支持的物
Django 模型已保存，但返回 None

我有一个带有模型管理器的简单模型 class CompanyReviewManager models Manager def get votes for company self company try return CompanyRevi
Azure Service Fabric Actors - 未处理的异常？

现在我们的 ASF 集群正在运行 Web API 项目无状态且面向公众 Actor 项目大部分是易失性的将数据保存在内存中由某些 API 使用我们正在尝试 Application Insights 我可以像他们的文档一样设置未处理
引用 build.xml 和 proguard 文件时出现构建错误：“返回 null：1”

在构建我的 PhoneGap 应用程序安装了 Facebook SDK 插件时我遇到了以下错误构建失败 C adt bundle windows x86 64 20130522 sdk tools ant build xml 653
使用Python从Google云存储下载多个文件

我正在尝试从 Google 云存储文件夹下载多个文件我可以下载单个文件但无法下载多个文件我将此参考资料取自这个链接但似乎不起作用代码如下 download multiple files bucket name bigquery hi
为什么 gcc 反汇编程序为局部变量分配额外的空间？

我用C写了简单的函数 void GetInput char buffer 8 gets buffer puts buffer 当我在 gdb 的反汇编器中反汇编它时它给出以下反汇编结果 0x08048464 lt 0 gt push eb
Xcode 项目的 Git 忽略文件

我应该包含哪些文件 gitignore使用时Git和这个结合Xcode 我之前使用的是得票最高的答案但它需要一些清理所以这里针对 Xcode 4 进行了重做并进行了一些改进我研究过every文件在此列表中但其中有几个在 Apple
如何从 Firebase 只获取新数据而不获取现有数据？

我在 Firebase 中有一个节点不断使用日志文件中的信息进行更新该节点是lines 和每个孩子lines 是来自一个post 所以它有一个唯一的ID 当客户端第一次加载时我希望能够获取最后一个X条目数我希望我会这样做once 然而
C# 正则表达式用于删除混合有多种不同语言、unicode 字母的文本中的不可打印字符和控制字符

我将不胜感激你的帮助因为我不知道要使用哪个范围的字符或者是否有像 cntrl 这样的字符类我在 ruby 中找到了通过不可打印我的意思是在打印输入字符串时删除 ie 输出中未显示的所有字符请注意我寻找 C 正则表达式我的代码
角度中带有“this”关键字和没有“this”关键字的数据插值绑定行为？

下面的代码是我的组件 Component selector my app template div name div export class MyApp name String constructor this name Mr Perfe
使用 JavaScript 包装一组 DOM 元素

我有一系列p我页面上的标签我想将它们全部包装到一个容器中例如 p foo p p bar p p baz p 我想将以上所有标签包装到一个容器中如下所示 div p foo p p bar p p baz p div 如何包裹一个No
如何在 MVC 下创建简洁且 RESTful 的向导？

我尝试在构建应用程序时尽可能保持 RESTful 但我不确定的一件事是如何创建一个向导式工作流程保持 RESTful 和简洁以多页面注册流程为例选项1 我可以为每个步骤创建一个控制器并在用户到达该步骤或返回该步骤时调用 new
CakePHP 2.0 选择表单多选

我有一个下拉菜单您可以在其中选择多个值现在假设我想编辑我的信息并创建一个包含多个选定值的下拉菜单试图弄清楚它是如何进行的但没有结果假设我有 selected array 3 4 options array 1 2 3 4 echo
我的 powershell 脚本在预期输出之前打印“1”。为什么？

我编写了一个简单的 powershell 脚本用于检查 PSA 服务板上的门票数量并输出门票数量和与其关联的颜色但是我的脚本在结果之前打印 1 我对 powershell 很陌生我似乎找不到打印此内容的行任何帮助将不胜感激谢
MVC5 帐户控制器空引用异常

我正在尝试将用户角色实现到我的 MVC Web 应用程序中但是我收到了一个空异常return userManager HttpContext GetOwinContext GetUserManager
错误：无法加载要扩展的配置“下一个”

我有一个使用 jest 和 react testing library 进行测试的 Nextjs 应用程序我使用 npx eslintrc init 命令将 eslintrc 文件添加到我的项目中每当我检查我的项目时我都会收到以下错误
C# 和 VB.NET 中的转换之间的区别

以下代码在 C 中运行良好 Int32 a b Int16 c a 0x7FFFFFFF b a 0xFFFF c Int16 b 但是这段代码崩溃并出现 OverflowExceptionVB NET Dim a b As Int32 D
来自学习变量的预期张量流模型大小

在训练用于图像分类任务的卷积神经网络时我们通常希望我们的算法能够学习将给定图像转换为其正确标签的滤波器和偏差我有几个模型试图在模型大小操作数量准确性等方面进行比较但是从张量流输出的模型的大小具体来说是模型 ckpt 数据存储

来自学习变量的预期张量流模型大小

来自学习变量的预期张量流模型大小 的相关文章

随机推荐

热门标签

来自学习变量的预期张量流模型大小的相关文章