tensorflow InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef 错误分析

2023-05-16

训练nfm模型，每2000个step进行保存。一开始模型训练正常，但是在使用tf.train.Saver的save方法保存模型时出现了如下错误：

tensorflow.python.framework.errors_impl.InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef as the serialized size (2239053850bytes) would be larger than the limit (2147483647 bytes)

首先根据字面分析，tf的Graph太大了，超过了2个G，导致无法序列号。进一步查看保存的模型文件后发现，每2000步保存的meta文件（也就是图结构文件）都比上一个2000步要大200M左右，明显不正常，并且我使用的是NFM模型，模型本身并不是很大，为什么会出现这样的错误呢？

先看一下模型的部分代码：

class NFMNetwork:
	
	...
		
        def initialized_sparse_embedding(self, weights_indices, weights_values, weights_shape, ids, values):
                weights_indices_tensor = tf.convert_to_tensor(weights_indices, dtype=tf.int64)
                weights_values_tensor = tf.convert_to_tensor(weights_values, dtype=tf.float32)
                weights_shape_tensor = tf.convert_to_tensor([int(weights_shape[0]), int(weights_shape[1])], dtype=tf.int64)
                weights_sparse = tf.sparse.SparseTensor(weights_indices_tensor, weights_values_tensor, weights_shape_tensor)
                weights = tf.sparse.to_dense(weights_sparse, default_value = 0, validate_indices = False)

                result = tf.nn.embedding_lookup_sparse(weights, ids, values, partition_strategy="div", combiner="mean")
                return result    
		
        def get_initialized_embeddings(self, weights_indices, weights_values, num_features, embed_units, features, values):
                weights_shape = [num_features, embed_units] 
                hidden1 = self.initialized_sparse_embedding(weights_indices, weights_values, weights_shape, features, values)
                return tf.nn.leaky_relu(hidden1)
		
		def inference(self, feature_dict, ...):
    			
    			...
    			
               	for (feature_name, feature_info) in self.feature_config.word2vec_sparse_feature.items():
                		with tf.variable_scope("sparse_feature_embedding_%s" % feature_name.replace('#','_')):
                                sparse_embedding_feature[feature_name] = self.get_initialized_embeddings(
                                word2vec_indices,
                                word2vec_values,
                                num_features=feature_info['feature_max_size'],
                                embed_units=feature_info['feature_embedding_size'],
                                features=feature_dict[feature_name],
                                values=None,
                        )
                        
				......

重点就是在initialized_sparse_embedding方法。这个方法的目的是使用预先训练好的词向量放到模型中，实现预训练的embedding。但是我错误的使用了tf.convert_to_tensor方法。tf.convert_to_tensor的作用是将python数组转为tensor，但是和一般理解不同的是，tf.convert_to_tensor方法是作为图操作被添加而不是作为图变量或常量，而数据是记录在该图操作中（可参考这篇文章：https://zhuanlan.zhihu.com/p/31308247）。在训练过程中inference方法被频繁调用，也就多次调用了initialized_sparse_embedding方法，，即使使用with tf.variable_scope限定的变量范围，但由于tf.convert_to_tensor是图操作，因此并没有限定作用，每次调用tf.convert_to_tensor都将在计算图上添加图操作，从而导致图结构变得十分庞大，最终导致在训练到第30000步是模型图结构大小超过2G，导致了以上错误。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef 错误分析的相关文章

TensorFlow 队列关闭后可以重新打开吗？

我想将项目入队关闭队列以确保其他会话将所有剩余项目出队然后在下一个纪元稍后重新打开它这可能吗 q tf FIFOQueue close q q close reopen q with tf Session as sess sess r
如何在 Tensorflow 上测试自己的图像到 Cifar-10 教程？

我训练了 Tensorflow Cifar10 模型我想为其提供自己的单个图像 32 32 jpg png 我想将标签和每个标签的概率视为输出但我对此遇到了一些麻烦搜索堆栈溢出后我发现了一些帖子this https stackove
在 Numpy 中预处理 Tensorflow 张量

我在 Tensorflow 中设置了一个 CNN 用 TFRecordReader 读取数据它工作得很好但我想做一些比提供的更多的预处理和数据增强tf image功能我特别想做一些随机缩放是否可以在 Numpy 中处理 Tensor
在 Keras 中，如何修改每个批次的损失（使用训练期间应运行的额外代码）

使用此自定义回调我可以 1 查看训练期间的损失 2 访问正在训练的模型 class ChangeBatchLoss tf keras callbacks Callback def on train batch begin self bat
如何使用 tf.data.Dataset.from_generator() 将参数发送到生成器函数？

我想创建多个tf data Dataset使用from generator 功能我想向生成器函数发送一个参数 raw data gen 这个想法是生成器函数将根据发送的参数产生不同的数据这样我想raw data gen能够提供训练验证
ImportError：无法从“tensorflow.python.keras.engine”导入名称“network”

尝试使用 anaconda 环境导入在 Tensorflow 2 3 0 上运行的 tf agents environments 时出现此错误尝试重新安装tensorflow 仍然出现同样的错误以管理员身份运行 jupyter 笔记本
来自 .meta .info .data 的 Tensorflow 冻结推理图并组合冻结推理图

我是张量流新手目前正在努力解决一些问题如何在没有管道配置的情况下从 meta data info 获取冻结推理图我想实时检查预先训练的交通标志检测模型模型包含 3 个文件 meta data info 但我找不到信息如何在没有管道
在 Tensorboard 中获取简单的绘图

我正在尝试在张量板上画一个简单的图就像他们在主页上一样如下所示 To understand how this is working I ve wrote the following import tensorflow as tf imp
计算复合损失函数各部分的梯度范数

假设我有以下损失函数 loss a tf reduce mean my loss fn model output targets loss b tf reduce mean my other loss fn model output tar
TensorFlow - 根据另一个变量的形状动态定义变量的形状

假设我有一定的张量x其维度未在图初始化时定义我可以使用以下方法获得它的形状 x shape tf shape input x 现在如果我想根据中定义的值创建一个变量x shape using y tf get variable vari
在 jupyter 中找不到 Tensorboard 作为魔法函数

我想使用最新的tensorflow 2 0 0a0在jupyter中运行tensorboard 使用tensorboard版本1 13 1和python 3 6 using tensorboard logdir logs base dir
使用sklearn宏f1-score作为tensorflow.keras中的指标

我已经为tensorflow keras定义了自定义指标以在每个时期之后计算宏f1分数如下所示 from tensorflow import argmax as tf argmax from sklearn metric import
在 Tensorflow 中使用队列将数据馈送到网络时分开验证和训练图

我一直在做大量关于如何使用队列将数据正确输入网络的研究但是我在互联网上找不到任何解决方案目前我的代码能够读取训练数据并执行训练但无需验证和测试这里有一些重要的行构成了我的代码 images volumes utils inputs
如何复制 tf.keras.models.Model 子类？

我需要复制 keras 模型但我无法知道可以做什么除非该模型is not a tf keras models Model 子类 Note 使用copy deepcopy 将在没有任何错误的情况下工作但是每当使用副本时都会导致另一个错误
AMD plaidml 与 CPU Tensorflow - 意外结果

我目前正在运行一个简单的脚本来训练mnist数据集通过 Tensorflow 通过我的 CPU 运行训练给了我49us sample和使用以下代码的 3e 纪元 CPU import tensorflow as tf mnist tf k
带有 TF 后端的 Keras：获取输出相对于输入的梯度

我有一个非常简单的 Keras MLP 并且我正在尝试获取输出相对于输入的梯度我正在使用以下代码 regressor Sequential Dense 32 input shape n features activation relu D
使用 TFLite 量化模型的参数进行计算操作

我正在尝试使用量化的 Mobilenetv2 模型在硬件中实现图像分类here https www tensorflow org lite guide hosted models 为此我首先需要从头到尾重现推理过程以确保我理解对数据执行
使用 keras.utils.Sequence 多处理和数据库 - 何时连接？

我正在使用 Keras 和 Tensorflow 后端训练神经网络数据集不适合 RAM 因此我将其存储在 Mongo 数据库中并使用子类检索批次keras utils Sequence 一切正常如果我跑的话model fit gene
Windows 10 上的 Tensorflow 安装问题

我正在尝试在 Win 10 计算机上安装 Tensorflow 我成功安装了Python 3 7 然后尝试按照tensorflow org上的安装说明进行操作执行时 pip install tensorflow 我收到以下错误消息错误
Tensorflow：从 TFRecords 文件中提取图像和标签

我有一个 TFRecords 文件其中包含图像及其标签名称大小等我的目标是将标签和图像提取为 numpy 数组我执行以下操作来加载文件 def extract fn data record features Extract fea

随机推荐

XTDrone 视觉惯性里程计（VIO）配置

XTDrone 视觉惯性里程计 xff08 VIO xff09 配置参考XTDron进行配置 xff0c 对于依赖的配置写成文档 xff0c 参考主要为 xff1a XTDrone Ceres Solver 2 0 0 1 下载2 0 0
ros realsense D435i摄像头配置

ros realsense D435i摄像头配置之前在ubunut18中配置了ROS环境 xff0c 现在需要在此基础上 xff0c 配置D435i相机的SDK和ROS包一参考 https github com IntelRealSe
树莓派4B（ubuntu mate系统）使用d435i运行vins

树莓派4B xff08 ubuntu mate系统 xff09 使用d435i运行vins 提示本文为随手笔记 xff0c 并不严谨 xff0c 可参考 xff1a 博客和博客进行配置树莓派 ubuntu mate 20系统安装ros的步
树莓派3B+增加虚拟内存

普通ubuntu系统增加虚拟内存参考 xff1a https blog csdn net weixin 42405819 article details 117886557 编译opencv时 xff0c 卡在了91 不动 xff0c 按照
ROS主机从机设置

ROS主机从机设置在ROS基础上 xff0c 配置主机和从机 xff0c 实现主机和从机的话题联通配置hosts 在主机和从机的 etc hosts文件中 xff0c 配置如下内容 xff08 也许主机只需要写入 master xff1
VINS、MAVROS等的坐标系统一（草稿，未得出明确结果）

由于不同算法之间的坐标系不同 xff0c 导致计算的结果混乱 xff0c 该博客的目的是记录和统一不同算法之间的坐标系 xff0c 保证坐标系的统一一 VINS算法 vins算法 xff0c 使用D435I相机该坐标方向为 xff1a
ROS学习笔记9-创建ros消息和服务

该节内容主要来自于官方文档的两个小节 xff1a 1 使用rosed来编辑 2 创建ros消息的服务先来看rosed xff1a rosed rosed命令是rosbash的一部分 xff0c 使用rosed可以直接编辑包中的一个文件 x
CUAV RTK初步使用体验和感受

记录使用RTK进行无人机定位并操作的使用体验一 RTK定位设置使用的是CUAV制作发售的RTK xff0c 型号为C9P xff0c 目前该产品已经下架 xff0c 上新了C9PS 并不需要太多的设置 xff0c 在飞控接入RTK后 x
记录一次WIN11开机在登录页面循环的问题

记录一次由于未进行win密码设置 xff0c 导致开机后卡在登录界面无法登录进去的问题最后完美解决了 1 背景开机后 xff0c 显示用户登录界面 xff0c 但是和以往不同 xff0c 没有了密码输入框 xff0c 只有一个登录按
Ubuntu中增加串口的缓冲区

增加串口缓冲区 xff0c 用于尝试解决px4 ros中显示TX溢出的问题以下大部分代码和内容均有CHATGPT生成 xff0c 代码已经通过验证一通信溢出问题 PX4和ROS的通信溢出可能是由于几个原因造成的以下是一些建议 xff
GRBL代码使用与修改

下载官方grbl代码 xff0c 并进行修改使其正确 1 问题 xff1a 购买了328p单片机 xff0c 购买了grbl的底板 xff0c 但是烧录之后无法正常使用问题发现 xff1a 引脚错误了 xff0c 官方代码中的引脚需要修改
ubuntu使用rc.local开机自启USB设备读写权限

无人机飞控为ACM0 xff0c 串口USB为USB0 xff0c 使用rc为其开机自启给与权限大部分由chagpt生成 xff0c 已验证首先 xff0c 创建一个新的 etc rc local 文件 xff08 如果尚不存在 xff
Friendlycore增加inodes数量

背景 xff1a 为Nanopim1安装了core系统 xff0c tf卡大小64G xff0c 安装后正常扩展到了整个tf卡 xff0c 但是在安装hass的docker显示磁盘空间不够 xff0c 最终发现是inode被用完了其ino
UORB

转载地址 xff1a http blog arm so armteg pixhawk 183 0503 html Pixhawk 飞控系统是基于ARM的四轴以上飞行器的飞行控制器 xff0c 它的前身是PX4 IMU xff0c Pixh
rCS启动脚本分析

转载地址 xff1a http wellmakers com p 61 401 还有一篇很重要的文章 xff0c 讲述了整个系统的大致启动过程 xff1a http blog chinaunix net uid 29786319 id 43
PID通俗解释

转载地址 xff1a http blog gkong com liaochangchu 117560 ashx PID是比例积分微分的简称 xff0c PID控制的难点不是编程 xff0c 而是控制器的参数整定参数整定的关键是正确地理
Kali Linux中安装Xfce的步骤2-1

Kali Linux默认安装的是桌面环境是Gnome xff0c 可以通过以下方法在Kali Linux中安装Xfce xff0c 从而修改其桌面环境 1 Xfce介绍 Xfce是XForms Common Enviroment的简写其可
STM32CubeMX教程之简介及基本使用

STM32CubeMX是意法半导体推出的图形化配置工具 xff0c 通过傻瓜化的操作便能实现相关配置 xff0c 最终能够生成C语言代码 xff0c 支持多种工具链 xff0c 比如MDK IAR For ARM TrueStudio等尤
Linux 文件流与目录流管理

Linux 应用开发 04 文件流与目录流管理本课目标 1 编程目标 xff1a a 实现磁盘文件的拷贝操作 b 缓冲区类型对磁盘真正写入操作的影响 2 理解文件流操作以及缓冲区概念 3 掌握ansi c 文件流相关操作函数 4 理解与掌
tensorflow InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef 错误分析

训练nfm模型 xff0c 每2000个step进行保存一开始模型训练正常 xff0c 但是在使用tf train Saver的save方法保存模型时出现了如下错误 xff1a tensorflow python framework er

tensorflow InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef 错误分析

tensorflow InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef 错误分析 的相关文章

随机推荐

热门标签

tensorflow InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef 错误分析的相关文章