tensorflow InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef 错误分析

2023-05-16

训练nfm模型,每2000个step进行保存。一开始模型训练正常,但是在使用tf.train.Saver的save方法保存模型时出现了如下错误:

tensorflow.python.framework.errors_impl.InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef as the serialized size (2239053850bytes) would be larger than the limit (2147483647 bytes)

首先根据字面分析,tf的Graph太大了,超过了2个G,导致无法序列号。进一步查看保存的模型文件后发现,每2000步保存的meta文件(也就是图结构文件)都比上一个2000步要大200M左右,明显不正常,并且我使用的是NFM模型,模型本身并不是很大,为什么会出现这样的错误呢?

先看一下模型的部分代码:

class NFMNetwork:
	
	...
		
        def initialized_sparse_embedding(self, weights_indices, weights_values, weights_shape, ids, values):
                weights_indices_tensor = tf.convert_to_tensor(weights_indices, dtype=tf.int64)
                weights_values_tensor = tf.convert_to_tensor(weights_values, dtype=tf.float32)
                weights_shape_tensor = tf.convert_to_tensor([int(weights_shape[0]), int(weights_shape[1])], dtype=tf.int64)
                weights_sparse = tf.sparse.SparseTensor(weights_indices_tensor, weights_values_tensor, weights_shape_tensor)
                weights = tf.sparse.to_dense(weights_sparse, default_value = 0, validate_indices = False)

                result = tf.nn.embedding_lookup_sparse(weights, ids, values, partition_strategy="div", combiner="mean")
                return result    
		
        def get_initialized_embeddings(self, weights_indices, weights_values, num_features, embed_units, features, values):
                weights_shape = [num_features, embed_units] 
                hidden1 = self.initialized_sparse_embedding(weights_indices, weights_values, weights_shape, features, values)
                return tf.nn.leaky_relu(hidden1)
		
		def inference(self, feature_dict, ...):
    			
    			...
    			
               	for (feature_name, feature_info) in self.feature_config.word2vec_sparse_feature.items():
                		with tf.variable_scope("sparse_feature_embedding_%s" % feature_name.replace('#','_')):
                                sparse_embedding_feature[feature_name] = self.get_initialized_embeddings(
                                word2vec_indices,
                                word2vec_values,
                                num_features=feature_info['feature_max_size'],
                                embed_units=feature_info['feature_embedding_size'],
                                features=feature_dict[feature_name],
                                values=None,
                        )
                        
				......

重点就是在initialized_sparse_embedding方法。这个方法的目的是使用预先训练好的词向量放到模型中,实现预训练的embedding。但是我错误的使用了tf.convert_to_tensor方法。tf.convert_to_tensor的作用是将python数组转为tensor,但是和一般理解不同的是,tf.convert_to_tensor方法是作为图操作被添加而不是作为图变量或常量,而数据是记录在该图操作中(可参考这篇文章:https://zhuanlan.zhihu.com/p/31308247)。在训练过程中inference方法被频繁调用,也就多次调用了initialized_sparse_embedding方法,,即使使用with tf.variable_scope限定的变量范围,但由于tf.convert_to_tensor是图操作,因此并没有限定作用,每次调用tf.convert_to_tensor都将在计算图上添加图操作,从而导致图结构变得十分庞大,最终导致在训练到第30000步是模型图结构大小超过2G,导致了以上错误。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef 错误分析 的相关文章

随机推荐

  • XTDrone 视觉惯性里程计(VIO)配置

    XTDrone 视觉惯性里程计 xff08 VIO xff09 配置 参考XTDron进行配置 xff0c 对于依赖的配置写成文档 xff0c 参考主要为 xff1a XTDrone Ceres Solver 2 0 0 1 下载2 0 0
  • ros realsense D435i摄像头配置

    ros realsense D435i摄像头配置 之前在ubunut18中配置了ROS环境 xff0c 现在需要在此基础上 xff0c 配置D435i相机的SDK和ROS包 一 参考 https github com IntelRealSe
  • 树莓派4B(ubuntu mate系统)使用d435i运行vins

    树莓派4B xff08 ubuntu mate系统 xff09 使用d435i运行vins 提示本文为随手笔记 xff0c 并不严谨 xff0c 可参考 xff1a 博客和博客进行配置 树莓派 ubuntu mate 20系统安装ros的步
  • 树莓派3B+增加虚拟内存

    普通ubuntu系统增加虚拟内存参考 xff1a https blog csdn net weixin 42405819 article details 117886557 编译opencv时 xff0c 卡在了91 不动 xff0c 按照
  • ROS主机从机设置

    ROS主机从机设置 在ROS基础上 xff0c 配置主机和从机 xff0c 实现主机和从机的话题联通 配置hosts 在主机和从机的 etc hosts文件中 xff0c 配置如下内容 xff08 也许主机只需要写入 master xff1
  • VINS、MAVROS等的坐标系统一(草稿,未得出明确结果)

    由于不同算法之间的坐标系不同 xff0c 导致计算的结果混乱 xff0c 该博客的目的是记录和统一不同算法之间的坐标系 xff0c 保证坐标系的统一 一 VINS算法 vins算法 xff0c 使用D435I相机 该坐标方向为 xff1a
  • ROS学习笔记9-创建ros消息和服务

    该节内容主要来自于官方文档的两个小节 xff1a 1 使用rosed来编辑 2 创建ros消息的服务 先来看rosed xff1a rosed rosed命令是rosbash的一部分 xff0c 使用rosed可以直接编辑包中的一个文件 x
  • CUAV RTK初步使用体验和感受

    记录使用RTK进行无人机定位并操作的使用体验 一 RTK定位设置 使用的是CUAV制作发售的RTK xff0c 型号为C9P xff0c 目前该产品已经下架 xff0c 上新了C9PS 并不需要太多的设置 xff0c 在飞控接入RTK后 x
  • 记录一次WIN11开机在登录页面循环的问题

    记录一次由于未进行win密码设置 xff0c 导致开机后卡在登录界面无法登录进去的问题 最后完美解决了 1 背景 开机后 xff0c 显示用户登录界面 xff0c 但是和以往不同 xff0c 没有了密码输入框 xff0c 只有一个 登录 按
  • Ubuntu中增加串口的缓冲区

    增加串口缓冲区 xff0c 用于尝试解决px4 ros中显示TX溢出的问题 以下大部分代码和内容均有CHATGPT生成 xff0c 代码已经通过验证 一 通信溢出问题 PX4和ROS的通信溢出可能是由于几个原因造成的 以下是一些建议 xff
  • GRBL代码使用与修改

    下载官方grbl代码 xff0c 并进行修改使其正确 1 问题 xff1a 购买了328p单片机 xff0c 购买了grbl的底板 xff0c 但是烧录之后无法正常使用 问题发现 xff1a 引脚错误了 xff0c 官方代码中的引脚需要修改
  • ubuntu使用rc.local开机自启USB设备读写权限

    无人机飞控为ACM0 xff0c 串口USB为USB0 xff0c 使用rc为其开机自启给与权限 大部分由chagpt生成 xff0c 已验证 首先 xff0c 创建一个新的 etc rc local 文件 xff08 如果尚不存在 xff
  • Friendlycore增加inodes数量

    背景 xff1a 为Nanopim1安装了core系统 xff0c tf卡大小64G xff0c 安装后正常扩展到了整个tf卡 xff0c 但是在安装hass的docker显示磁盘空间不够 xff0c 最终发现是inode被用完了 其ino
  • UORB

    转载地址 xff1a http blog arm so armteg pixhawk 183 0503 html Pixhawk 飞控 系统是基于ARM的四轴以上飞行器的飞行控制器 xff0c 它的前身是PX4 IMU xff0c Pixh
  • rCS启动脚本分析

    转载地址 xff1a http wellmakers com p 61 401 还有一篇很重要的文章 xff0c 讲述了整个系统的大致启动过程 xff1a http blog chinaunix net uid 29786319 id 43
  • PID通俗解释

    转载地址 xff1a http blog gkong com liaochangchu 117560 ashx PID是比例 积分 微分的简称 xff0c PID控制的难点不是编程 xff0c 而是控制器的参数整定 参数整定的关键是正确地理
  • Kali Linux中安装Xfce的步骤2-1

    Kali Linux默认安装的是桌面环境是Gnome xff0c 可以通过以下方法在Kali Linux中安装Xfce xff0c 从而修改其桌面环境 1 Xfce介绍 Xfce是XForms Common Enviroment的简写 其可
  • STM32CubeMX教程之简介及基本使用

    STM32CubeMX是意法半导体推出的图形化配置工具 xff0c 通过傻瓜化的操作便能实现相关配置 xff0c 最终能够生成C语言代码 xff0c 支持多种工具链 xff0c 比如MDK IAR For ARM TrueStudio等 尤
  • Linux 文件流与目录流管理

    Linux 应用开发 04 文件流与目录流管理 本课目标 1 编程目标 xff1a a 实现磁盘文件的拷贝操作 b 缓冲区类型对磁盘真正写入操作的影响 2 理解文件流操作以及缓冲区概念 3 掌握ansi c 文件流相关操作函数 4 理解与掌
  • tensorflow InvalidArgumentError: Cannot serialize protocol buffer of type tensorflow.GraphDef 错误分析

    训练nfm模型 xff0c 每2000个step进行保存 一开始模型训练正常 xff0c 但是在使用tf train Saver的save方法保存模型时出现了如下错误 xff1a tensorflow python framework er