(2)一文懂“AI推理芯片” 测试方法与测试指标

2023-11-07

1、前言

    Inference是用于测试系统使用训练有素的模型处理输入和产生结果的速度。

1.1 缘起

    随着人工智能应用的崛起,其在不同的硬件芯片平台上的性能也逐渐变成了比较不同硬件和芯片的重要参考。然而,最初由各个芯片厂商自行公布的跑分结果往往很难直接比较,因为其中包括了许多不同的参数,例如模型版本(例如同一个ResNet50可以延伸出许多不同的版本,不同厂商可能会选取对自己芯片最有利的版本来做跑分),模型数字精度(浮点数还是整数)等等,这时候就需要一个统一的测试方法与指标了。

1.2 MLPerf

    MLPerf就出现了,该跑分(benchmark)平台是一个由第三方机构(MLCommons)维护的平台,不同的机构则可以上传这些标准模型在自己的硬件芯片上的跑分结果,并且由MLCommons收集并验证后统一公布在网站上。这样一来,不同硬件芯片平台在做AI模型跑分的时候,就可以有一个统一的模型,也可以直接相互比较。

1.3 涵盖范围

    涵盖了图像分类(ResNet)、医学影像分割(U-Net3D)、目标物体检测(SSD)、目标物体检测(Mask R-CNN)、语音识别(RNN-T)、自然语言理解(BERT)、智能推荐(DLRM)以及强化机器学习(Minigo)8类AI应用场景。 

1.4 名称解释

    SUT:被测系统(System under test)

    mAP:平均精度均值(Mean average precision)

    mIoU:平均交并比(Mean intersection over union)

    FPS:每秒帧率(Frame per second)

    FAR:误识率(False accept rate)

    FRR:拒识率(False reject rate)

    IR:识别正确率(Identification rate)

    WER:词错误率(Word error rate)

    SER:句错误率(Sentence error rate)

2、测试指标与测试方法

2.1 喂数据方式(MLPerf--Loadgen)

Scenario

(场景)

Query Generation

Duration

Samples/query

Latency Constraint

Tail Latency

Performance Metric

Single stream

LoadGen sends next query as soon as SUT completes the previous query:串行方式,query一次完整再下一次

1024 queries and 60 seconds

1

None

90%

90%-ile measured latency

Multiple stream

LoadGen sends a new query every latency constraint if the SUT has completed the prior query, otherwise the new query is dropped and is counted as one overtime query

1、query 的samples随机

2、 如果超过latency constraint,query完成不会立刻query即drop,而是下个周期再query,导致总的耗时变长

270,336 queries and 60 seconds

Variable, see metric

Benchmark specific

99%

Maximum number of inferences per query supported

Server

LoadGen sends new queries to the SUT according to a Poisson distribution:根据泊松分布query

270,336 queries and 60 seconds

1

Benchmark specific

99%

Maximum Poisson throughput parameter supported

Offline

LoadGen sends all queries to the SUT at start:极限性能(极限处理能力)

1 query and 60 seconds

At least 24,576

None

N/A

Measured throughput

2.2 测试指标

      最大吞吐量性能、平均前向推理速率、前向推理时延、功耗、能效比、模型推理准确度等

3、测试标准

4、测试指标解释

     待完善

5、 训练芯片测试指标与方法

    https://blog.csdn.net/huangblog/article/details/119646718

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

(2)一文懂“AI推理芯片” 测试方法与测试指标 的相关文章

随机推荐

  • LDO低压差线性稳压器

    LDO 转自 http baike baidu com view 1042146 htm 百科名片 LDO是low dropout regulator 意为低压差线性稳压器 是相对于传统的线性稳压器来说的 传统的线性稳压器 如78xx系列的
  • 元宇宙产业委一届二次全会召开 同步举办共享大会和全球元宇宙大会

    2022全球元宇宙大会 上海站将于8月18 19日在沪召开 央链直播快讯 2022年8月18 19日 由中国移动通信联合会主办 上海市通信管理局联合主办 众视Tech 中移联会展部 中国移动通信联合会元宇宙产业委员会承办 BIC EURON
  • Aop反射机制实现某个参数值 修改

    项目中使用敏感字段的加解密 但是有的是直接在url中拼接的 所以我就想根据一个自定义注解的方式做匹配 修改值 利用反射的机制实现值的修改 以下是具体的代码 依赖aop
  • VSCode顶端文件名多行显示

    VScode默认顶端一行显示所有打开的文件名 1 直接在设置中搜索 多行 在 Workbench Editor Wrap Tabs 前选中即可 2 也可用快捷键 Ctrl P 查看最近浏览文件记录
  • 2023华为od机试 Python 实现【德州扑克】

    前言 本题使用Python解答 如果需要Java代码 请参考 链接 题目 我们可以选择五张牌 它们的范围是 每张牌的大小在2 10之间 或者字母J Q K A 牌花色为红桃 黑桃 梅花 方块四种花色之一 现在一共有6种牌型 牌型1 同花顺
  • 运维体系框架标准化模型简介

    为什么要做标准化 标准化的过程实际上就是对运维对象的识别和建模过程 形成统一的对象模型后 各方在统一的认识下展开有效协作 然后针对不同的运维对象 再抽取出它们所对应的运维场景 接下来才是运维场景的自动化实现 这有点像我们学的面向对象编程的思
  • Fabric.js

    Fabric js是什么 Fabric js 是一个简化HTML5 Canvas开发的Javascript库 Fabric js提供了HTML5 Canvas本身缺失的对象模型 交互层 SVG解析器以及其他一整套工具 它是一个完全开源的项目
  • C中的预编译宏定义

    C中的预编译宏定义 作者 infobillows 发表日期 2007 09 15 21 34 点击数 1507 在将一个C源程序转换为可执行程序的过程中 编译预处理是最初的步骤 这一步骤是由预处理器 preprocessor 来完成的 在源
  • 根据文字长度,设置文字滚动的速度

    div class tips box span class scroll text span div 根据文字长度设置中文滚动时间 const animateTextlength this conference importantInfo
  • pygame模块介绍

    pygame模块介绍 在python中开发游戏 通常会用到pygame这个模块 pygame模块总览 模块 作用 cdrom 管理cdrom设备和音频播放 cursors 加载光标图像 包括标准光标 display 控制显示窗口或屏幕 dr
  • FCN学习:Semantic Segmentation(摘自知乎)

    源文章地址 https zhuanlan zhihu com p 22976342 utm source tuicool utm medium referral FCN学习 Semantic Segmentation 余俊 计算机视觉及深度
  • 计算机图形学年鉴:研究现状、应用和未来

    计算机图形学是支持各种影视特效 三维动画影片 计算机游戏 虚拟现实以及大家手机上各种照片视频美化特效背后的技术基础 在本文中 微软亚洲研究院网络图形组深入解释了图形学的现状 发展和未来 谈及 计算机图形学 可能很多人会觉得很有距离感 或者和
  • 微信小程序弹窗提示:wx.showToast、wx.showModal、wx.showLoading的使用场景与实现

    1 wx showToast 使用场景 常规的提示 没有确定和取消按钮 例 属性 title 提示的内容 icon 显示的图标 合法值有success error loading none image 自定义图标的本地路径 优先级高于ico
  • K8S部署步骤:8-部署Master节点

    kubernetes master节点包含的组件 etcd flannel docker kube apiserver kube scheduler kube controller manager 目前这三个组件需要部署在同一台机器上 ku
  • python面试的3大重点,让你顺利拿到offer!

    5月已经过去大半个月了 马上就要迎来毕业季了 你准备好去面试了么 W3C咨询了不少python爬虫岗位从业者 如果你也打算从事python爬虫岗位 掌握这三个重点 能让你更顺利的get到理想的offer 1 Python 因为面试的是Pyt
  • C++入门——引用(重点!!!)

    文章目录 引用概念 引用特性 常引用 const 使用场景 1 做参数 输出型参数 2 做返回值 引用返回 引用和指针的区别 引用概念 引用不是新定义一个变量 而是给已存在的变量取了一个别名 编译器不会为引用变量开辟内存空间 它和它的引用变
  • springboot+MD5实现注册登录的密码的加密解密

    写在前面 你们好 我是小庄 很高兴能和你们一起学习mybatis 如果您对Java感兴趣的话可关注我的动态 写博文是一种习惯 在这过程中能够梳理知识和巩固知识点 需求 登录和注册的密码涉及到网络安全 对密码的加密能够在一定程度上增加安全性
  • linux shell字符串截取

    linux字符串截取很有用 有八种方法 有变量url https www test com 123 html 号截取 删除左边字符 保留右边字符 echo url 输出 www test com 123 html 其中url是变量名 是运算
  • 【极简代码】Unity控制3D物体的自由旋转 缩放和移动

    Unity中以最少代码 控制3D物体的自由旋转 缩放和移动 using UnityEngine public class TestMatrix MonoBehaviour float scaleparam 0f Vector3 oldSca
  • (2)一文懂“AI推理芯片” 测试方法与测试指标

    1 前言 Inference是用于测试系统使用训练有素的模型处理输入和产生结果的速度 1 1 缘起 随着人工智能应用的崛起 其在不同的硬件芯片平台上的性能也逐渐变成了比较不同硬件和芯片的重要参考 然而 最初由各个芯片厂商自行公布的跑分结果往