tensorflow gpu利用率低_TensorFlow 模型优化工具 — float16 量化将模型体积减半

2023-11-19

我们很高兴在模型优化工具包中添加训练后的半精度浮点量化 (float16 quantization)，此工具套件包含混合量化 (hybrid quantization)、训练后整形量化 (full integer quantization) 和剪枝 (pruning)。点此查看发展蓝图中的其他工具。

训练后的半精度浮点量化可以在损失极少准确度的情况下，缩小 TensorFlow Lite 模型的大小(最高可缩减 50%)。它将模型常量(如权重和偏差值)从全精度浮点(32 位)量化为精度下降的浮点数据类型 (IEEE FP16)。

注：量化链接

https://tensorflow.google.cn/model_optimization/guide#quantization

训练后的半精度浮点量化不但对准确度的影响很小，而且能显著缩小模型尺寸，因而是初始量化 TensorFlow Lite 模型的好工具。您可在此处查看我们的文档(包含新的浮点图表)，了解不同的量化选项和方案。

注：文档链接

https://tensorflow.google.cn/lite/performance/post_training_quantization

降低精度的益处

精度降低存在诸多益处，尤其是部署在边缘设备时：

模型尺寸缩减一半。模型中的所有常量值均存储在 16 位浮点而非 32 位浮点中。这些常量值通常决定模型的总体尺寸，因此可以将模型尺寸缩减约一半。
精度损失微乎其微。与初始训练精度相比，深度学习模型使用较低精度时通常可以产生良好的推理结果。我们对多个模型进行实验，发现推理质量的损失甚微。在下面的例子中可以看到，MobileNet V2 的 Top 1 准确度下降小于 0.03%(参见下文结果)。

模型大小缩减一半，准确度损失微乎其微

训练后的半精度浮点量化对准确度影响甚小，却可将深度学习模型的尺寸缩减约一半。例如，以下是 MobileNet V1 和 V2 模型以及 MobileNet SSD 模型的一些结果。MobileNet V1 和 V2 的准确度结果基于 ImageNet 图像识别任务，对 SSD 模型的评估则基于 COCO 对象识别任务。

注： ImageNet 链接

http://image-net.org/

COCO 链接

http://cocodataset.org/

模型准确度

对标准 Mobilenet float32 模型(与 fp16 变体)的评估基于 LSVRC 2012 图像分类任务，对 Mobilenet SSD float32 及其 fp16 变体的评估则基于 COCO 对象检测任务。

注：LSVRC 2012 图像分类任务链接

http://www.image-net.org/challenges/LSVRC/2012/

COCO 对象检测任务链接

http://cocodataset.org/#detection-eval

如何启用训练后的半精度浮点量化

您可以采用训练好的 float32 模型，将优化设置为“默认”，并将目标规范的支持类型设置为 float16 常量，从而在 TensorFlow Lite 转换器上指定训练后的半精度浮点量化：

1import tensorflow as tf
2converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
3converter.optimizations = [tf.lite.Optimize.DEFAULT]
4converter.target_spec.supported_types = [tf.lite.constants.FLOAT16]
5Tflite_quanit_model = converter.convert()

模型转换完成后可直接运行，这与其他 TensorFlow Lite 模型并无二致。默认情况下，模型会将 16 位参数“上采样”为 32 位，接着在标准 32 位浮点运算中执行操作，最终在 CPU 上运行。随着时间推移，我们有望看到有更多的硬件支持加速 fp16 计算，允许我们跳过上采样的步骤，直接使用 float16 精度进行计算。您也可以在 GPU 上运行模型。我们已强化 TensorFlow Lite GPU 委派，以接收精度降低的参数，并直接使用这些参数运行(而非如 CPU 中一般将其转化为 float32)。在您的应用中，您可以通过 TfLiteGpuDelegateCreate 函数创建 GPU 委派( 文档)。指定委派选项时，请确保将 precision_loss_allowed 设置为 1，以便在 GPU 中使用16位浮点进行运算：

1//Prepare GPU delegate.
2const TfLiteGpuDelegateOptions options = {
3  .metadata = NULL,
4  .compile_options = {
5    .precision_loss_allowed = 1,  // FP16
6    .preferred_gl_object_type = TFLITE_GL_OBJECT_TYPE_FASTEST,
7    .dynamic_batch_enabled = 0,   // Not fully functional yet
8  },
9};

如需 GPU 委派概览，请参阅先前的博文。请在此 Colab 教程中查看使用半精度浮点量化的工作示例。

注：GPU 委派链接

https://tensorflow.google.cn/lite/performance/gpu_advanced

委派概览链接

https://medium.com/tensorflow/tensorflow-lite-now-faster-with-mobile-gpus-developer-preview-e15797e6dee7

Colab 链接

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/lite/g3doc/performance/post_training_float16_quant.ipynb

建议您立即试用此工具并提供反馈。直接分享您的用例或在 Twitter 上使用 #TFLite 和 #PoweredByTF 标签分享。

注：提交用例链接

https://services.google.cn/fb/forms/TFCS/

致谢

T.J. Alumbaugh、Andrei Kulik、Juhyun Lee、Jared Duke、Raziel Alvarez、Sachin Joglekar、Jian Li、Yunlu Li、Suharsh Sivakumar、Nupur Garg、Lawrence Chan、Andrew Selle。

更多 TensorFlow Lite 相关阅读：

TensorFlow 模型优化工具包 — 训练后整型量化
TensorFlow 模型优化工具包 — 剪枝 API
TensorFlow Lite 2019 年发展蓝图
TensorFlow 模型优化工具包正式推出

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow gpu利用率低

tensorflow gpu利用率低_TensorFlow 模型优化工具 — float16 量化将模型体积减半的相关文章

YOLO终结者？百度最新RT-DETR：114FPS实现54.8AP，远超YOLOv8！

作者 Kissrabbit 编辑汽车人原文链接 https zhuanlan zhihu com p 626659049 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心目标检测技术交流群
MySQL 关于slave端Retrieved_Gtid_Set的读取改进初探

本文为以后学习SLAVE做一个记录不保证正确性因为算法没看懂一问题由来今天朋友问我这样一个问题 K I S S 在官方文档中有这样一段描述 When using GTIDs the slave tells the master wh
BUUCTF Web [ACTF2020 新生赛]Exec&[强网杯 2019]随便注&[SUCTF 2019]EasySQL&[极客大挑战 2019]Secret File

目录 ACTF2020 新生赛 Exec 强网杯 2019 随便注 SUCTF 2019 EasySQL 极客大挑战 2019 Secret File ACTF2020 新生赛 Exec 启动靶机发现是让我们ping测试输入127 0
C++标准库头文件（工具库->cstdarg）

参考网址 https zh cppreference com w cpp header https www runoob com cplusplus cpp standard library html 工具库 cstdarg 类型 std
Vue页面多次渲染echarts封装的组件但只出现一个（原因分析，多方案解决，最后附上源码）

前言最近写项目写到可视化的部分有一个水球图的部分我已经封装好了但是需要在页面多次渲染的时候只能渲染一个水球图这篇记录一下解决的办法对于在页面多次使用封装好的echarts组件均可适用原因分析首先我们要知道echart实例的创
网易某歌曲参数JS逆向分析,多图预警

之前写过一篇网易云的文章但是一直不过审这几天搞QQ音乐的爬虫 JS逆向不是很顺利有点忘了怎么搞了所以今天打断点重搞一把网易云音乐毕竟是之前搞过的找加密函数最下面有个url就是歌曲mp3文件的url 也就是目标url 接下来看这
shell 常量和变量拼接_PHP常量的定义和用法

我们通常把不经常变的值定义成常量常量一般用全部大写来表示前面不加美元符号也可减少团队开发的出错那么define和const有什么区别呢 1 const是一个语言结构而define是一个函数可以通过第三个参数来指定是否区分大小写
php解决高并发问题

转载 https www php cn php weizijiaocheng 350323 html 这篇文章说得很好记录一下我们通常衡量一个Web系统的吞吐率的指标是QPS Query Per Second 每秒处理请求数解决每秒数
Nginx官方文档(四十五)【ngx_stream_core_module】

ngx stream core module 示例配置指令 listen preread buffer size preread timeout proxy protocol timeout resolver resolver timeo
java强制类型转换时异常（java.lang.ClassCastException）

1 如果你的项目中出现如下情况说明你的java类文件中你运用了强制转换什么是强制转换也就是你用一种类型接受了另一种类型发生了类型转化但是类型转换一般都是向上转型的如 int 转 double 还有 int 转 String 这
ipsvd arm交叉编译

ipsvd arm交叉编译 ipsvd是什么交叉编译总结 ipsvd是什么 ipsvd全称是 internet protocol service daemons 即网际协议服务守护程序常用的是udpsvd和tcpsvd 这两个既存在于
数据结构笔记（十四）-- 串的模式匹配算法

串的模式匹配算法一普通模式匹配算法 1 算法解析普通模式匹配算法其实现过程没有任何技巧就是简单粗暴地拿一个串同另一个串中的字符一一比对得到最终结果例如使用普通模式匹配算法判断串 T abcac 是否为串 S ababcabc
将Eclipse项目导入到IntelliJ IDEA中

打开IntelliJ IDEA 点击菜单栏的 File gt New gt Project from Existing Sources 在弹出的对话框中选择Eclipse项目的根目录并点击 OK 在下一个对话框中选择 Create p
CentOS 8 安装screen

CentOS 8安装不上screen 以为是yum源的问题搞了半天才发现要在CentOS 8上安装screen 先要安装EPEL库才可以 root centoss8 yum repos d yum y install screen La
python3-循环与判断

1 gt 2 False 1 lt 2 lt 3 True 42 42 True Name name False M in Magic True number 12 number is 12 True Python比较运算符以下假设变量a
【编程基础】如何自学计算机/编程

愚者困惑智者提问一编程语言二编程技术体系 2 1 编程基础 2 1 1 操作系统 2 1 2 数据结构 2 1 3 编译原理 2 1 4 计算机组成原理 2 1 5 算法 2 2 编程语言 2 3 编程素质 2 3 1 编程规范
SQL server无法启动服务

报错在与SQL Server建立连接时出现与网络相关的或特定于实例的错误切换到依赖关系选项卡我们可以看见它与 SQL Server MSSQLSERVER 服务存在依赖关系 4 鼠标右键单击 SQL Server MSSQLSER
springboot注册到consul中报错：Spring MVC found on classpath, which is incompatible with Spring Cloud

今天在做springboot整合成springCloud并注册到consul中时发现若注册到consule中成功则不能启动swagger 且不能提供任何API服务要是能提供API服务则不能注册到consule中并报错 Spring
Python怎么打包exe可执行文件？教你30秒轻松完成

兄弟们我来了实在是太忙了没得时间更新太难了之前看很多人都在问 Python怎么打包exe可执行文件雀氏有点多那么我来了给大家整一个Python打包exe可执行文件的究极教程当然顺便再给它换个图标首先把你的代码准备好尽

随机推荐

qt之QCustomPlot动态更改曲线颜色，点击曲线标题名称

一前言上篇文章介绍了如何调用qt自带的颜色画板其实目的就是想更改一些颜色本篇博客介绍更改QCustomPlot的曲线颜色二环境 qt5 7 mingw windows8 sqlite3 三正文首先在数据库中建好表一行多列
碳排放混合预测模型（Matlab代码实现）

个人主页研学社的博客欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现 1 概述二氧化碳排放力争于
[自然语言处理入门]-NLP中的注意力机制

本章的主要内容有注意力机制概述传统注意力机制注意力编码机制 1 注意力机制概述注意力机制简单来说就是加权求和机制模块加权求和模块神经网络中的一个组件可以单独使用但更多地用作为网络中的一部分 2 传统注意力机制 2 1
windows基线检测

按照Windows基线检查模板检查设置windows安全机制 windows基线检查选项及风险等级编号检查选项风险等级适用类型 1 系统已安装最新的service pack 2 系统已经安装了最新的安全补丁本地安全策略检查选项及风
java控制台聊天程序

java控制台聊天程序发送端 package ip chat import java io BufferedReader import java io InputStreamReader import java net DatagramP
Python中的filter()函数

目录一描述语法返回值二实例 1 过滤出列表中的所有奇数 2 过滤出1 100中平方根是整数的数一描述英文文档 filter function iterable Construct an iterator from thos
01-----tcpdump抓包命令

一 tcpdump抓包命令关于tcpdump的抓包命令非常的多这里我只记录我平时开发时比较常用的抓包命令当然后面可能不断的在本篇补上对应的内容 1 tcpdump的命令格式 tcpdump adeflnNOpqStvx c 数量 F
大数据毕业设计深度学习图像检索算法研究与实现 - python

文章目录 0 前言 1 课题简介 2 图像检索介绍 1 无监督图像检索 2 有监督图像检索 3 图像检索步骤 4 应用实例 5 最后 0 前言这两年开始毕业设计和毕业答辩的要求和难度不断提升传统的毕设题目缺少创新和亮点往往达不到毕业答
oh-my-zsh的各种主题展示，你喜欢哪一个？

pygmalion virtualenv blink mrtazz sonicradish skaro linuxonly gnzh tjkirch 带时间
物联网毕设分享 - stm32单片机酒精浓度酒驾检测系统 - 物联网嵌入式

文章目录 0 前言 1 简介 2 主要器件 3 实现效果 4 硬件设计 MQ 3酒精乙醇传感器模块 SIM800C模块 5 软件说明系统框图 6 部分核心代码 7 最后 0 前言这两年开始毕业设计和毕业答辩的要求和难度不断提升传统的毕
cityscapes和foggy_cityscapes数据集使用记录

cityscapes和foggy cityscapes数据集使用记录 cityscapes 数据集介绍下载数据集 cityscapes转voc格式 foggy cityscapes 下载数据集 foggy cityscapes转voc格式
linux drm 架构基础

一简介 DRM 英文全称Digital Rights Management 可以翻译为数字版权管理由于数字化信息的特点决定了必须有另一种独特的技术来加强保护这些数字化的音视频节目内容文档电子书籍的版权该技术就是数字权限管理技术
PAT (Basic Level) Practice （中文） B1034 有理数四则运算（20 分）（C++）（分数四则运算）

1034 有理数四则运算 20 分本题要求编写程序计算 2 个有理数的和差积商输入格式输入在一行中按照 a1 b1 a2 b2 的格式给出两个分数形式的有理数其中分子和分母全是整型范围内的整数负号只可能出现在分子前分母不
openGL之API学习（一九三）glGenTextures

生成纹理单元名单元名不一定是连续的但是没有使用的单元名是相对GL TEXTURE0的对于单元名1 其实是GL TEXTURE0 1 glGenTextures产生的是一个比较小的整数id 纹理单元名 glActiveTexture激
三分钟带你搞懂分布式链路追踪系统原理

分布式系统为什么需要链路追踪随着互联网业务快速扩展软件架构也日益变得复杂为了适应海量用户高并发请求系统中越来越多的组件开始走向分布式化如单体架构拆分为微服务服务内缓存变为分布式缓存服务组件通信变为分布式消息这些组件共同构成了
前端学习——JavaScript原生实现购物车案例

一购物车案例 1 1 案例介绍今天我们来写另外一个购物车案例说实话对于我来说这个是花了将近三个小时的时间然后才做出来的里面可能还存在一些我没有发现的问题但是能完成基本的功能对于一些基本的需求都是可以完成的下面照旧是案例实现的g
[Python] wxPython 状态栏组件、消息对话框组件学习总结(原创)

1 状态栏组件 1 基本介绍上图红框框内的就是状态栏他可以分成若干个区块比如上者分为了两个区块并且比例是固定的创建时可以指定每个区块都能够显示信息一般通过绑定事件实时更新各个区块的内容因为状态栏本身组件所以除了
Dubbo与SpringCloud的区别

首先来看一个表格 Dubbo 和 SpringCloud 对比 Dubbo SpringCloud 服务注册中心 Zookeeper Spring Cloud Netfilx Eureka 服务调用方式 RPC REST API 服务监控
Mysql从入门到精通（innodb 引擎锁超时查看以及设置）

1 查看innodb引擎锁超时时间 show variables like innodb lock wait timeout 2 设置锁超时时间 set innodb lock wait timeout 5 3 代码验证两个窗口同时开启事
tensorflow gpu利用率低_TensorFlow 模型优化工具 — float16 量化将模型体积减半

我们很高兴在模型优化工具包中添加训练后的半精度浮点量化 float16 quantization 此工具套件包含混合量化 hybrid quantization 训练后整形量化 full integer quantization 和剪枝 p

tensorflow gpu利用率低_TensorFlow 模型优化工具 — float16 量化将模型体积减半

tensorflow gpu利用率低_TensorFlow 模型优化工具 — float16 量化将模型体积减半 的相关文章

随机推荐

热门标签

tensorflow gpu利用率低_TensorFlow 模型优化工具 — float16 量化将模型体积减半的相关文章