TensorFlow Lite 量化无法改善推理延迟

2024-04-20

TensorFlow 网站声称量化可将移动设备上的延迟降低多达 3 倍:https://www.tensorflow.org/lite/performance/post_training_quantization https://www.tensorflow.org/lite/performance/post_training_quantization

我试图验证这一说法,发现量化模型比 Float 模型慢 45%-75%,尽管其尺寸小了近 4 倍。不用说,这非常令人失望,并且与谷歌的说法相冲突。

我的测试使用Google官方的MnasNet模型:https://storage.googleapis.com/mnasnet/checkpoints/mnasnet-a1.tar.gz https://storage.googleapis.com/mnasnet/checkpoints/mnasnet-a1.tar.gz

以下是基于新重启手机上 100 次推理操作的平均延迟:

  • 像素 2:浮动 = 81 毫秒,定量 = 118 毫秒
  • Moto E:浮动=337ms,定量=590ms
  • LG宝:浮动=547ms,定量=917ms

我的测试应用程序仅测量一种方法(tfLite.runForMultipleInputsOutputs)的时间。结果非常一致(多次执行的误差在 1% 以内)。

我希望看到 Tensorflow 团队或任何可以分享其指标的人的一些评论。上述数字基于图像分类器模型。我还测试了 SSD MobileNetV2 对象检测器,结果类似(量化模型速度要慢得多)。


None

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

TensorFlow Lite 量化无法改善推理延迟 的相关文章

随机推荐