（一）人工智能大纲摘要：《人工智能发展白皮书-技术架构篇（2018年9月）》

2023-10-27

以下博客的主要内容，摘自白皮书。

http://www.caict.ac.cn/kxyj/qwfb/bps/index_1.htm

《人工智能发展白皮书-技术架构篇（2018年）》

《人工智能安全白皮书(2018)》

《2018世界人工智能产业发展蓝皮书》

《电信网络人工智能应用白皮书（2018 年）》

《深度学习技术选型白皮书（2018 年）》

第一章、人工智能技术背景

1.1 发展历程

1、1943 年麦卡洛克和皮茨创立的脑模型，受当时理论模型、生物原型和技术条件的限制。

2、1982 年霍普菲尔特提出的 Hopfield 神经网络模型和1986 年鲁梅尔哈特等人提出的反向传播算法，使得神经网络的理论研究取得了突破。

3、2006 年，连接主义的领军者 Hinton 提出了深度学习算法，使神经网络的能力大大提高。

4、2012 年，使用深度学习技术的 AlexNet 模型在 ImageNet 竞赛中获得冠军。

1.2 深度学习

深度学习全称深度神经网络，本质上是多层次的人工神经网络算法，即从结构上模拟人脑的运行机制，从最基本的单元上模拟了人类大脑的运行机制。深度学习已经开始在计算机视觉、语音识别、自然语言理解等领域取得了突破。

1.2.1 语音识别领域

2010 年，使用深度神经网络模型的语音识别相对传统混合高斯模型识别错误率降低超过 20%，目前所有的商用语音识别算法都基于深度学习。

1.2.2 图像分类领域

目前针对 ImageNet 数据集的算法分类精度已经达到了 95%以上，可以与人的分辨能力相当。深度学习在人脸识别、通用物体检测、图像语义分割、自然语言理解等领域也取得了突破性的进展。

1.3 技术架构

该技术架构，为做产品提供了一个基础的模型，产品的软硬件、接口等等，必须符合一定的标准。

第二章、基于深度学习的人工智能技术现状

2.1 算法发展现状

人工智能目前在理论上，主要表现在算法的研究上，如下表所示。我们要学习，往往结合相应的数学理论，针对下面的典型算法进行学习，达到理想的算法效果。

2.1.1、回归任务的算法。

回归是一种用于连续型数值变量预测和建模的监督学习算法。目前回归算法最为常用的主要有四种，即线性回归（正则化）、回归树（集成方法）、最邻近算法和深度学习。

2.1.2、分类任务的算法。

分类算法用于分类变量建模及预测的监督学习算法，分类算法往往适用于类别（或其可能性）的预测。其中最为常用的算法主要有五种，分别为逻辑回归（正则化）、分类树（集成方法）、支持向量机、朴素贝叶斯和深度学习方法。

2.1.3、聚类任务的算法。

聚类算法基于数据内部结构来寻找样本集群的无监督学习任务，使用案例包括用户画像、电商物品聚类、社交网络分析等。其中最为常用的算法主要有四种即 K 均值、仿射传播、分层/层次和聚类算法 (Density-Based Spatial Clustering of Applications with Noise，DBSCAN)。

2.1.4、其他算法

还有其他新的或改进的算法，能达到更好的效果。比如如胶囊网络、生成对抗网络、迁移学习等（详解见《人工智能发展白皮书-技术架构篇（2018年）》）。

其中，迁移学习可大大降低深度网络训练所需的数据量，缩短训练时间。具有节省时间成本、模型泛化能力好、实现简单、少量的训练数据就可以达到较好效果的优势，已获得广泛应用。

2.2 软件框架

当前，人工智能基础性算法已经较为成熟，各大厂商纷纷发力建设算法模型工具库，并将其封装为软件框架，供开发者使用，可以说软件框架是算法的工程实现。业界目前主要有深度学习训练软件框架和推断软件框架两大类别。

2.2.1深度学习训练软件框架

目前主流的深度学习训练软件框架主要有 TensorFlow，MXNet，Caffe/2+PyTorch，Microsoft Cognitive Toolkit (CNTK) 、PaddlePaddle等。（有些是开源的，有些非开源的）

TensorFlow 以其功能全面，兼容性广泛和生态完备而著称。该软件框架由谷歌大脑（Google Brain）团队主要支撑，实现了多 GPU 上运行深度学习模型的功能，可以提供数据流水线的使用程序，并具有模型检查，可视化和序列化的配套模块。其生态系统已经成为深度学习开源软件框架最大的活跃社区。

MXNet 以其优异性能及全面的平台支持而著称。该软件框架是由亚马逊公司（Amazon）主导的深度学习平台，目前已经捐献到阿帕奇软件基金会（Apache）进行孵化。其主要特点包括：一是可以在全硬件平台（包括手机端）运行，提供包括 Python、R 语言、Julia、 C++、Scala、Matlab 以及 Javascript 的编程接口；二是具有灵活的编程模型，支持命令式和符号式编程模型；三是从云端到客户端可移植，可运行于多 CPU、多 GPU、集群、服务器、工作站及移动智能手机；四是支持本地分布式训练，在多 CPU/GPU 设备上的分布式训练，使其可充分利用计算集群的规模优势。

Caffe/2+PyTorch 以其在图像处理领域的深耕和易用性而著称。该软件框架是由脸书公司（Facebook）主导的平台，目前 Caffe 1/2 两个项目已经合并到 PyTorch 统一维护。在图像处理领域 Caffe 有着深厚的生态积累，结合 PyTorch 作为一个易用性很强的软件框架，越来越受到数据科学家的喜爱。我国很多人工智能图像处理团队选择PyTorch 作为主要工作平台。

Microsoft Cognitive Toolkit (CNTK)以其在智能语音语义领域的优势及良好性能而著称。该软件框架由微软公司于 2016 年基于 MIT 协议开源，它具有速度快、可扩展性强、商业级质量高以及 C++和 Python 兼容性好等优点，支持各种神经网络模型、异构及分布式计算，依托于微软的产品生态，在语音识别、机器翻译、类别分析、图像识别、图像字幕、文本处理、语言理解和语言建模等领域都拥有良好应用。

PaddlePaddle 以其易用性和支持工业级应用而著称。该软件框架是百度旗下的深度学习开源平台，是我国自主开发软件框架代表。其最大特点就是易用性，得益于其对算法的封装，对于现成算法(卷积神经网络 VGG、深度残差网络 ResNet、长短期记忆网络 LSTM 等) 的使用可以直接执行命令替换数据进行训练。非常适合需要成熟稳定的模型来处理新数据的情况。

2.2.2 深度学习推断软件框架

以下模型可以提供PC或手机端。

Caffe2go 是最早出现的终端侧推断软件框架，能够让深层神经网络在手机上高效的运行。由于终端侧的 GPU 设备性能有限，Caffe2go 是基于 CPU 的优化进行设计。

TensorFlow Lite 可以运行在 Android 和 iOS 平台，结合 Android 生态的神经网络运行时能够实现较为高效的 AI 移动端应用速度。

NCNN 是腾讯开源的终端侧 AI 软件框架，支持多种训练软件框架的模型转换，是主要面向 CPU 的 AI模型应用，无第三方依赖具有较高的通用性，运行速度突出，是国内目前较为广泛使用的终端侧 AI 软件框架。

Core ML 是苹果公司开发的 iOS AI 软件框架，能够对接 Caffe、PyTorch、MXNet、TensorFlow 等绝大部分 AI 模型，并且自身提供了常用的各种手机端 AI 模型组件，目前也汇集了众多开发者及贡献力量。

Paddle-mobile 是百度自研的移动端深度学习软件框架，主要目的是将 Paddle 模型部署在手机端，其支持 iOS GPU 计算。但目前功能相对单一，支持较为有限。

TensorRT 是英伟达（NVIDIA）开发的深度学习推断工具，已经支持 Caffe、 Caffe2、TensorFlow、MXNet、PyTorch 等主流深度学习库，其底层针对 NVIDIA 显卡做了多方面的优化，可以和 CUDA 编译器结合使用。

2.3 编译器

2.3.1 深度学习网络模型编译器解决适应性问题

深度学习网络模型编译器解决适应性问题，就是实现底层与软件的接口，使得不同的软件平台可以移植到不同的硬件平台，从而在该软件平台运行人工智能算法。

目前产业界绝大多数编译器都是按照 LLVM 体系架构设计的。LLVM 全称 Low Level Virtual Machine，是一种应用广泛的开源编译器架构。该项目由伊利诺伊大学发起，由于其开源特性，目前已有基于这个软件框架的大量工具可以使用，形成了具有实际标准意义的生态。

英伟达通过提供针对 LLVM 内核的 CUDA 源代码及并行线程执行后端打造了 CUDA 编译器。该编译器可支持 C、C++以及 Fortran语言，能够为运用大规模并行英伟达 GPU 的应用程序加速。英特尔基于 LLVM 架构打造 nGraph 计算库，为深度学习提供优化方法，可以处理所有的计算芯片抽象细节，目前已经开发了 TensorFlow/XLA、 MXNet 和 ONNX 的软件框架桥梁；华盛顿大学基于 LLVM 架构打造了 NNVM/TVM 编译器，能够直接从多个深度学习前端将工作负载编译成为优化的机器代码。实现端到端的全面优化。

2.3.2 中间表示层解决可移植性问题

扩充性能的中间表示层是打通深度学习计算中多种不同前端训练软件框架和多种不同后端的表达桥梁，使深度学习网络模型编译器更有效实现二者之间的优化和影射。

2.3.3 未来亟需模型转换及通用的模型表示

在工程实践上，除了上文提到使用统一的中间表示层对模型进行表达及存储外，输入数据格式以及模型表示规范也同样是重要的影响因素。

主流软件框架输入数据集格式各有不同。由于在训练中已经过清洗和标注的数据依然面临着多线程读取、对接后端分布式文件系统等实际操作问题，各主流人工智能软件框架均采用了不同的技术和数据集格式来实现此类数据操作。如 TensorFlow 定义了 TFRecord、MXNet 及 PaddlePaddle 使用的是 RecordIO 等。

深度学习网络模型的表示规范分为两大阵营。第一阵营是 Open Neural Network Exchange（ONNX，开放神经网络交换），是一个用于表示深度学习模型的标准，可使模型在不同软件框架之间进行转移。 ONNX 由微软和 Facebook 联合发布，该系统支持的软件框架目前主要包括 Caffe2，PyTorch，Cognitive Toolkit 和 MXNet，而谷歌的 TensorFlow 并没有被包含在内。第二阵营是 Neural Network Exchange Format（NNEF，神经网络交换格式），是由 Khronos Group 主导的跨厂商神经网络文件格式，计划支持包括 Torch, Caffe, TensorFlow, 等几乎所有人工智能软件框架的模型格式转换，目前已经有 30 多家计算芯片企业参与其中。

2.4 AI 计算芯片提供算力保障

2.4.1. 深度学习对 AI 计算芯片的需求

总体来看，深度神经网络对计算芯片的需求主要有以下两个方面：

一、是计算芯片和存储间海量数据通信需求，这里有两个层面，一个是缓存（Cache）和片上存储（Memory）的要大，另一个是计算单元和存储之间的数据交互带宽要大。

二、是专用计算能力的提升，解决对卷积、残差网络、全连接等计算类型的大量计算需求，在提升运算速度的同时实现降低功耗。总的来说，AI 计算芯片的发展过程可以总结为一直在围绕如何有效解决存储与计算单元的提升这两个问题而展开，成本问题则作为一个舵手控制着最终的航向。

2.4.2 典型 AI 计算芯片的使用现状

在深度学习训练环节，除了使用 CPU 或 GPU 进行运算外，现场可编程门阵列（ Field－Programmable Gate Array，FPGA）以及专用集成电路（Application Specific Integrated Circuit，ASIC）也发挥了重大作用；而用于终端推断的计算芯片主要以 ASIC 为主。

关于各种芯片的详情，请参考《人工智能发展白皮书-技术架构篇（2018年）》

2.5 数据为算法模型提供基础资源

基于深度学习的人工智能技术，核心在于通过计算找寻数据中的规律，运用该规律对具体任务进行预测和决断。源数据需要进行采集、标注等处理后才能够使用，标注的数据形成相应数据集。业务类型主要包括数据采集、数据处理、数据存储以及数据交易等环节。

2.5.1 数据来源

当前，人工智能数据集的参与主体主要有以下几类:

一是学术机构，为开展相关研究工作，自行采集、标注，并建设学术数据集。这类数据集以 ImageNet 为代表，主要用于算法的创新性验证、学术竞赛等，但其迭代速度较慢，难用于实际应用场景。

二是政府，等中立机构，他们以公益形式开放的公共数据，主要包括政府、银行机构等行业数据及经济运行数据等，数据标注一般由使用数据的机构完成。

三是人工智能企业，他们为开展业务而自行建设数据集，企业一般自行采集，标注形成自用数据集，或采购专业数据公司提供的数据外包服务。

四是数据处理外包服务公司，这类公司业务包括出售现成数据训练集的使用授权，或根据用户的具体需求提供数据处理服务（用户提供原始数据、企业对数据进行转写、标注），具体业务服务形式包括且不限于提供数据库资源、提供数据采集服务，提供数据转写标注服务等。

2.5.2 数据类型

当前，人工智能基础数据类型主要包括语音语言类（包括声音、文字、语言学规则）、图像识别类（包括自然物体、自然环境、人造物体、生物特征等）以及视频识别类三个大类，从世界范围来看，数据服务商总部主要分布在美国、欧洲等发达国家。但其数据处理人员则大多数分布在第三世界国家；我国语音、图像类资源企业机构正处于快速发展阶段，为产业发展增添了动力。

2.6 高性能计算服务器和服务平台快速发展

GPU 服务器就是提供计算资源。

API服务，说白了就是将人工智能算法应用起来，比如搭建一个人脸识别平台，卖给别人或租给别人用。

2.6.1GPU 服务器

服务器厂商相继推出了专为 AI 而设计的、搭载 GPU 的服务器。 GPU 服务器是基于 GPU 应用于视频编解码、深度学习、科学计算等多种场景的计算服务设备。

2.6.2以服务的形式提供人工智能能力成为趋势

以服务形式提供人工智能服务主要有两类，即平台类的服务和软件 API 形式的服务。

平台类服务主要包含 GPU 云服务，深度学习平台等，类似云服务的基础设施即服务（Infrastructure as a Service，IaaS）和平台即服务（Platform as a Service，PaaS）层。GPU 云服务是以虚拟机的形式，为用户提供 GPU 计算资源，可适用于深度学习、科学计算、图形图像渲染、视频解码等应用场景。深度学习平台是以 TensorFlow、Caffe、MXNet、Torch 等主流深度学习软件框架为基础，提供相应的常用深度学习算法和模型，组合各种数据源、组件模块，让用户可以基于该平台对语音、文本、图片、视频等海量数据进行离线模型训练、在线模型预测及可视化模型评估。

软件 API 服务主要分为智能语音语类服务和计算机视觉服务。其中智能语音语类服务主要提供语音语义相关的在线服务，可包括语音识别、语音合成、声纹识别、语音听转写等。计算机视觉类服务主要提供物体检测、人脸识别、人脸检测、图像识别、光学字符识别（Optical Character Recognition， OCR）识别、智能鉴黄等服务。

第三章、基于深度学习的基础应用技术现状

第二章中，主要讨论的是人工智能的一些技术现状，并没有过多讨论目前的工业应用。本章节将讨论人工智能（主要是深度学习）的工业或商业应用。

本章主要分析目前商业较为成熟的智能语音、自然语言处理和计算机视觉技术的情况，如图 2 所示，每个基础应用技术各分为若干应用类别。

3.1、智能语音技术改变人机交互模式

智能语音语义技术主要研究人机之间语音信息的处理问题。简单来说，就是让计算机、智能设备、家用电器等通过对语音进行分析、理解和合成，实现人“能听会说”、具备自然语言交流的能力。

3.1.1智能语音技术概述

按机器在其中所发挥作用的不同，分为语音合成技术、语音识别技术、语音评测技术等。

语音合成技术即让机器开口说话，通过机器自动将文字信息转化为语音，相当于机器的嘴巴；语音识别技术即让机器听懂人说话，通过机器自动将语音信号转化为文本及相关信息，相当于机器的耳朵；语音评测技术通过机器自动对发音进行评分、检错并给出矫正指导。此外，还有根据人的声音特征进行身份识别的声纹识别技术，可实现变声和声音模仿的语音转换技术，以及语音消噪和增强技术等。

3.1.2智能语音产品和服务形态多样

智能语音技术会成为未来人机交互的新方式，将从多个应用形态成为未来人机交互的主要方式。

智能音箱类产品提升家庭交互的便利性。智能音箱是从被动播放音乐，过渡到主动获取信息、音乐和控制流量的入口。当前智能音箱以语音交互技术为核心，成为作为智能家庭设备的入口，不但能够连接和控制各类智能家居终端产品，而且加入了个性化服务，如订票、查询天气、播放音频等能力。

个人智能语音助手重塑了人机交互模式。个人语音助手，特别是嵌入到手机、智能手表、个人电脑等终端中的语音助手，将显著提升这类产品的易用性。如苹果虚拟语音助手 Siri 与苹果智能家居平台 Homekit 深度融合，用户可通过语音控制智能家居。Google Now 为用户提供关心的内容，如新闻、体育比赛、交通、天气等等。微软的 Cortana 主要优势在于提升个人计算机的易用性。

以 API 形式提供的智能语音服务成为行业用户的重要入口。智能语音 API 主要提供语音语义相关的在线服务，可包括语音识别、语音合成、声纹识别、语音听转写等服务类型，并且可以嵌入到各类产品，服务或 APP 中。在商业端，智能客服、教育（口语评测）、医疗（电子病历）、金融（业务办理）、安防、法律等领域需求强烈；在个人用户领域，智能手机、自动驾驶及辅助驾驶、传统家电、智能家居等领域需求强烈。

3.2 计算机视觉技术已在多个领域实现商业化落地

计算机视觉识别这一人工智能基础应用技术部分已达商业化应用水平，被用于身份识别、医学辅助诊断、自动驾驶等场景。

3.2.1计算机视觉概述

一般来讲，计算机视觉主要分为图像分类、目标检测、目标跟踪和图像分割四大基本任务。

图像分类是指为输入图像分配类别标签。自 2012 年采用深度卷积网络方法设计的 AlexNet 夺得 ImageNet 竞赛冠军后，图像分类开始全面采用深度卷积网络。2015 年，微软提出的 ResNet 采用残差思想，将输入中的一部分数据不经过神经网络而直接进入到输出中，解决了反向传播时的梯度弥散问题，从而使得网络深度达到 152 层，将错误率降低到 3.57%，远低于 5.1%的人眼识别错误率，夺得了 ImageNet 大赛的冠军。2017 年提出的 DenseNet 采用密集连接的卷积神经网络，降低了模型的大小，提高了计算效率，且具有非常好的抗过拟合性能。

目标检测指用框标出物体的位置并给出物体的类别。2013 年加州大学伯克利分校的 Ross B. Girshick 提出 RCNN 算法之后，基于卷积神经网络的目标检测成为主流。之后的检测算法主要分为两类，一是基于区域建议的目标检测算法，通过提取候选区域，对相应区域进行以深度学习方法为主的分类，如 RCNN、Fast-RCNN、Faster-RCNN、 SPP-net 和 Mask R-CNN 等系列方法。二是基于回归的目标检测算法，如 YOLO、SSD 和 DenseBox 等。

目标跟踪指在视频中对某一物体进行连续标识。基于深度学习的跟踪方法，初期是通过把神经网络学习到的特征直接应用到相关滤波或 Struck 的跟踪框架中，从而得到更好的跟踪结果，但同时也带来了计算量的增加。最近提出了端到端的跟踪框架，虽然与相关滤波等传统方法相比在性能上还较慢，但是这种端到端输出可以与其他的任务一起训练，特别是和检测分类网络相结合，在实际应用中有着广泛的前景。

图像分割指将图像细分为多个图像子区域。2015 年开始，以全卷积神经网络（FCN）为代表的一系列基于卷积神经网络的语义分割方法相继提出，不断提高图像语义分割精度，成为目前主流的图像语义分割方法。

3.2.2计算机视觉技术应用领域广阔

在政策引导、技术创新、资本追逐以及消费需求的驱动下，基于深度学习的计算机视觉应用不断落地成熟，并出现了三大热点应用方向。

一是人脸识别抢先落地，开启“刷脸”新时代。

二是视频结构化崭露头角，拥有广阔应用前景。视频结构化就是将视频这种非结构化的数据中的目标贴上相对应的标签，变为可通过某种条件进行搜索的结构化数据。视频结构化技术的目标是实现以机器自动处理为主的视频信息处理和分析。从应用前景看，视频监控技术所面临的巨大市场潜力为视频结构化描述提供了广阔的应用前景，很多行业需要实现机器自动处理和分析视频信息，提取实时监控视频或监控录像中的视频信息，并存储于中心数据库中。用户通过结构化视频合成回放，可以快捷的预览视频覆盖时间内的可疑事件和事件发生时间。

三是姿态识别让机器“察言观色”，带来全新人机交互体验。在视觉人机交互方面，姿态识别实际上是人类形体语言交流的一种延伸。它的主要方式是通过对成像设备中获取的人体图像进行检测、识别和跟踪，并对人体行为进行理解和描述。从用户体验的角度来说，融合姿态识别的人机交互能产品够大幅度提升人机交流的自然性，削弱人们对鼠标和键盘的依赖，降低操控的复杂程度。从市场需求的角度来说，姿态识别在计算机游戏、机器人控制和家用电器控制等方面具有广阔的应用前景，市场空间十分可观。

3.3自然语言处理成为语言交互技术的核心

自然语言处理（Natural Language Processing ，NLP）是研究计算机处理人类语言的一门技术，是机器理解并解释人类写作与说话方式的能力，也是人工智能最初发展的切入点和目前大家关注的焦点。

3.3.1 自然语言处理技术现状

自然语言处理主要步骤包括分词、词法分析、语法分析、语义分析等。

其中，分词是指将文章或句子按含义，以词组的形式分开，其中英文因其语言格式天然进行了词汇分隔，而中文等语言则需要对词组进行拆分。

词法分析是指对各类语言的词头、词根、词尾进行拆分，各类语言中名词、动词、形容词、副词、介词进行分类，并对多种词义进行选择。

语法分析是指通过语法树或其他算法，分析主语、谓语、宾语、定语、状语、补语等句子元素。

语义分析是指通过选择词的正确含义，在正确句法的指导下，将句子的正确含义表达出来。

3.3.2 自然语言处理技术的应用方向

自然语言处理的应用方向主要有文本分类和聚类、信息检索和过滤、信息抽取、问答系统、机器翻译等方向。

文本分类和聚类 主要是将文本按照关键字词做出统计，建造一个索引库，这样当有关键字词查询时，可以根据索引库快速地找到需要的内容。此方向是搜索引擎的基础。

信息检索和过滤是网络瞬时检查的应用范畴，在大流量的信息中寻找关键词，找到后对关键词做相应处理。

信息抽取是为人们提供更有力的信息获取工具，直接从自然语言文本中抽取事实信息。

机器翻译是当前最热门的应用方向，目前微软、谷歌的新技术是翻译和记忆相结合，通过机器学习，将大量以往正确的翻译存储下来。谷歌使用深度学习技术，显著提升了翻译的性能与质量。

第四章问题和趋势展望

4.1、主要问题

4.1.1在算法层面，深度学习算法模型存在可靠性及不可解释性问题。

首先是可靠性问题，深度学习模型离开训练使用的场景数据，其实际效果就会降低。由于训练数据和实际应用数据存在区别，训练出的模型被用于处理未学习过的数据时，表现就会降低。其次是不可解释性问题，深度学习计算过程为黑盒操作，模型计算及调试的执行规则及特征选取由机器自行操作，目前尚无完备理论能够对模型选取及模型本身做出合理解释，随着相关算法在实际生产生活中的融合应用，存在产生不可控结果的隐患。

4.1.2在数据层面，主要存在流通不畅、数据质量良莠不齐和关键数据集缺失等问题。

具体来看，一是数据流通不畅。目前人工智能数据集主要集中在政府和大公司手里，受制于监管、商业门槛等问题，数据无法有效流动；部分有价值数据，如监控、电话客服等数据目前没有合法渠道获得；二是数据质量良莠不齐。数据标注主要通过外包形式，劳动力水平决定了产出的标注数据质量。三是关键领域和学术数据集不足。计算机视觉、自然语言处理等领域的数据资源严重不足，同时目前我国产业数据主要供给给产业界，目前学术界数据集数量较少，可能影响科研及前瞻性的技术研究。

4.1.3在软件框架层面，实现深度学习应用落地的推断软件框架质量参差不齐，制约了业务开展。

由于深度学习应用场景众多，相关应用呈现碎片化特点，用于实现最后应用落地的开源推断软件框架无论在功能还是性能层面距离实际需求还存在相当距离，与训练软件框架趋同趋势不同，产业界所使用的推断软件框架需要聚力研发，尚未形成具有实际标准意义的优秀实例。

4.1.4在编译器层面，各硬件厂商的中间表示层之争成为技术和产业发展的阻碍。

目前业界并没有统一的中间表示层标准，并且模型底层表示、存储及计算优化等方面尚未形成事实标准，导致各硬件厂商解决方案存在一定差异，导致应用模型迁移不畅，提高了应用部署难度。

4.1.5 在 AI 计算芯片层面，云侧和终端侧对计算芯片提出了不同的要求。

对于云侧芯片，随着深度学习计算需求的逐渐增加，业界希望在提升云侧芯片运算效能的前提下，希望针对不同网络实现更优化的性能表现，而功耗比则不是首要关注的因素；对于终端侧芯片，在功耗为首要要求的情况下，更加注重的推断运算的性能，并且不同终端应用场景对芯片提出了更多个性化需求，如在人脸识别摄像头、自动驾驶汽车等场景。

4.2、趋势展望

4.2.1迁移学习的研究及应用将成为重要方向

迁移学习由于侧重对深度学习中知识迁移、参数迁移等技术的研究，能够有效提升深度学习模型复用性，同时对于深度学习模型解释也提供了一种方法，能够针对深度学习算法模型可靠性及不可解释性问题提供理论工具。

4.2.2深度学习训练软件框架将逐渐趋同，开源推断软件框架将迎来发展黄金期。

随着人工智能应用在生产生活中的不断深入融合，对于推断软件框架功能及性能的需求将逐渐爆发，催生大量相关工具及开源推断软件框架，降低人工智能应用部署门槛。

4.2.3中间表示层之争将愈演愈烈

以计算模型为核心的深度学习应用，由于跨软件框架体系开发及部署需要投入大量资源，因此模型底层表示的统一将是业界的亟需，未来中间表示层将成为相关企业的重点。

4.2.4AI 计算芯片朝云侧和终端侧方向发展

从云侧计算芯片来看，目前 GPU 占据主导市场，以 TPU 为代表的 ASIC 只用在巨头的闭环生态，未来 GPU、TPU 等计算芯片将成为支撑人工智能运算的主力器件，既存在竞争又长期共存，一定程度可相互配合；FPGA 有望在数据中心中以 CPU+FPGA 形式作为有效补充。从终端侧计算芯片来看，这类芯片将面向功耗、延时、算力、特定模型、使用场景等特定需求，朝着不同发展。

4.2.5行业巨头以服务平台为核心打造生态链

对于国内外的云服务和人工智能巨头，如亚马逊、微软，阿里云、腾讯云、科大讯飞、旷视科技等企业，将围绕各自应用，与设备商、系统集成商、独立软件开发商等联合，为政府，企业等垂直领域提供一站式服务，共同打造基于服务平台的生态系统。

第五章、权威机构

5.1、国内

中国信通院

中国信通院，是国内唯一的、专门用来发布信息通信类重大文件（往往是白皮书）的机构。经常发布5G、物联网、互联网、车联网等等白皮书。

http://www.caict.ac.cn/kxyj/qwfb/bps/index_1.htm

《人工智能发展白皮书-技术架构篇（2018年）》

《人工智能安全白皮书(2018)》

《2018世界人工智能产业发展蓝皮书》

《电信网络人工智能应用白皮书（2018 年）》

《深度学习技术选型白皮书（2018 年）》

5.2、国外

xxxx

第六章结论

1、迁移学习算法的研究及应用将成为重要方向

2、对于大公司，你可以做软件架构、中间标准、顶层芯片。

3、对于小公司，你可以做服务、做平台、做算法实现（模块）、做语音产品、人脸识别产品、做翻译、语音或图像信息分类等等。

4、个人、研究机构：做算法场景实现或改进。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

AI技术跟踪