(一)人工智能大纲摘要:《人工智能发展白皮书-技术架构篇(2018年9月)》

2023-10-27

                               以下博客的主要内容,摘自白皮书。

http://www.caict.ac.cn/kxyj/qwfb/bps/index_1.htm

《人工智能发展白皮书-技术架构篇(2018年)》

《人工智能安全白皮书(2018)》

《2018世界人工智能产业发展蓝皮书》

《电信网络人工智能应用白皮书(2018 年)》

《 深度学习技术选型白皮书(2018 年)》
 

第一章、人工智能技术背景   

1.1 发展历程

1、1943 年麦卡洛克和皮茨创立的脑模型,受当时理论模型、生物原型和技术条件的限制。

2、1982 年霍普菲尔特提出的 Hopfield 神经网络模型和1986 年鲁梅尔哈特等人提出的反向传播算法,使得神经网络的理论研究取 得了突破。

3、2006 年,连接主义的领军者 Hinton 提出了深度学习算法, 使神经网络的能力大大提高。

4、2012 年,使用深度学习技术的 AlexNet 模型在 ImageNet 竞赛中获得冠军。

1.2 深度学习

         深度学习 全称深度神经网络,本质上是多层次的人工神经网络算法,即从结构 上模拟人脑的运行机制,从最基本的单元上模拟了人类大脑的运行机 制。深度学习已经开始在计算机视觉、语音识别、自然语言理解等领 域取得了突破。

      1.2.1 语音识别领域

2010 年,使用深度神经网络模型 的语音识别相对传统混合高斯模型识别错误率降低超过 20%,目前所 有的商用语音识别算法都基于深度学习。

      1.2.2 图像分类领域

       目前针对 ImageNet 数据集的算法分类精度已经达到了 95%以上,可以与人的 分辨能力相当。深度学习在人脸识别、通用物体检测、图像语义分割、 自然语言理解等领域也取得了突破性的进展。

1.3 技术架构

      该技术架构,为做产品提供了一个基础的模型,产品的软硬件、接口等等,必须符合一定的标准。

         

第二章、基于深度学习的人工智能技术现状

2.1 算法发展现状

      人工智能目前在理论上,主要表现在算法的研究上,如下表所示。我们要学习,往往结合相应的数学理论,针对下面的典型算法进行学习,达到理想的算法效果。

2.1.1、回归任务的算法。

          回归是一种用于连续型数值变量预测和建模的监督学习算法。目前回归算法最为常用的主要有四种,即线性回 归(正则化)、回归树(集成方法)、最邻近算法和深度学习。

2.1.2、分类任务的算法。

        分类算法用于分类变量建模及预测的监督学习算法, 分类算法往往适用于类别(或其可能性)的预测。其中最为常用的算 法主要有五种,分别为逻辑回归(正则化)、分类树(集成方法)、 支持向量机、朴素贝叶斯和深度学习方法。

2.1.3、聚类任务的算法。

        聚 类算法基于数据内部结构来寻找样本集群的无监督学习任务,使用案 例包括用户画像、电商物品聚类、社交网络分析等。其中最为常用的 算法主要有四种即 K 均值、仿射传播、分层/层次和聚类算法 (Density-Based Spatial Clustering of Applications with Noise,DBSCAN)。

2.1.4、其他算法

      还有其他新的或改进的算法,能达到更好的效果。比如如胶囊网络、生成对抗网络、迁移学习等(详解见人工智能发展白皮书-技术架构篇(2018年))。

     其中,迁移学习可大大降低深度网络训练所需 的数据量,缩短训练时间。具有节省时间成本、模型泛化能力好、实现 简单、少量的训练数据就可以达到较好效果的优势,已获得广泛应用。

2.2 软件框架

      当前,人工智能基础性算法已经较为成熟,各大厂商纷纷发力建 设算法模型工具库,并将其封装为软件框架,供开发者使用,可以说 软件框架是算法的工程实现。业界目前主要有深度学 习训练软件框架和推断软件框架两大类别。

2.2.1深度学习训练软件框架

      目前主流的深 度学习训练软件框架主要有 TensorFlow,MXNet,Caffe/2+PyTorch,Microsoft Cognitive Toolkit (CNTK) 、PaddlePaddle等。(有些是开源的,有些非开源的)

      TensorFlow 以其功能全面,兼容性广泛和生态完备而著称。该 软件框架由谷歌大脑(Google Brain)团队主要支撑,实现了多 GPU 上运行深度学习模型的功能,可以提供数据流水线的使用程序,并具 有模型检查,可视化和序列化的配套模块。其生态系统已经成为深度 学习开源软件框架最大的活跃社区

      MXNet 以其优异性能及全面的平台支持而著称。该软件框架是 由亚马逊公司(Amazon)主导的深度学习平台,目前已经捐献到阿 帕奇软件基金会(Apache)进行孵化。其主要特点包括:一是可以在 全硬件平台(包括手机端)运行,提供包括 Python、R 语言、Julia、 C++、Scala、Matlab 以及 Javascript 的编程接口;二是具有灵活的编 程模型,支持命令式和符号式编程模型;三是从云端到客户端可移植, 可运行于多 CPU、多 GPU、集群、服务器、工作站及移动智能手机; 四是支持本地分布式训练,在多 CPU/GPU 设备上的分布式训练,使 其可充分利用计算集群的规模优势。

     Caffe/2+PyTorch 以其在图像处理领域的深耕和易用性而著称。 该软件框架是由脸书公司(Facebook)主导的平台,目前 Caffe 1/2 两个项目已经合并到 PyTorch 统一维护。在图像处理领域 Caffe 有着 深厚的生态积累,结合 PyTorch 作为一个易用性很强的软件框架,越 来越受到数据科学家的喜爱。我国很多人工智能图像处理团队选择PyTorch 作为主要工作平台。

      Microsoft Cognitive Toolkit (CNTK)以其在智能语音语义领域的 优势及良好性能而著称。该软件框架由微软公司于 2016 年基于 MIT 协议开源,它具有速度快、可扩展性强、商业级质量高以及 C++和 Python 兼容性好等优点,支持各种神经网络模型、异构及分布式计算, 依托于微软的产品生态,在语音识别、机器翻译、类别分析、图像识 别、图像字幕、文本处理、语言理解和语言建模等领域都拥有良好应 用。

       PaddlePaddle 以其易用性和支持工业级应用而著称。该软件框架 是百度旗下的深度学习开源平台,是我国自主开发软件框架代表。其 最大特点就是易用性,得益于其对算法的封装,对于现成算法(卷积 神经网络 VGG、深度残差网络 ResNet、长短期记忆网络 LSTM 等) 的 使用可以直接执行命令替换数据进行训练。非常适合需要成熟稳定的 模型来处理新数据的情况。

2.2.2 深度学习推断软件框架

       以下模型可以提供PC或手机端。

       Caffe2go 是最早出现的终端侧推断软件框架,能够让深层神经网 络在手机上高效的运行。由于终端侧的 GPU 设备性能有限,Caffe2go 是基于 CPU 的优化进行设计。

      TensorFlow Lite 可以运行在 Android 和 iOS 平台,结合 Android 生态的神经网络运行时能够实现较为高效 的 AI 移动端应用速度。

      NCNN 是腾讯开源的终端侧 AI 软件框架, 支持多种训练软件框架的模型转换,是主要面向 CPU 的 AI模型应用, 无第三方依赖具有较高的通用性,运行速度突出,是国内目前较为广 泛使用的终端侧 AI 软件框架。

      Core ML 是苹果公司开发的 iOS AI 软件框架,能够对接 Caffe、PyTorch、MXNet、TensorFlow 等绝大部 分 AI 模型,并且自身提供了常用的各种手机端 AI 模型组件,目前也 汇集了众多开发者及贡献力量。

      Paddle-mobile 是百度自研的移动端 深度学习软件框架,主要目的是将 Paddle 模型部署在手机端,其支 持 iOS GPU 计算。但目前功能相对单一,支持较为有限。

      TensorRT 是英伟达(NVIDIA)开发的深度学习推断工具,已经支持 Caffe、 Caffe2、TensorFlow、MXNet、PyTorch 等主流深度学习库,其底层针 对 NVIDIA 显卡做了多方面的优化,可以和 CUDA 编译器结合使用。

2.3 编译器

2.3.1 深度学习网络模型编译器解决适应性问题         

        深度学习网络模型编译器解决适应性问题,就是实现底层与软件的接口,使得不同的软件平台可以移植到不同的硬件平台,从而在该软件平台运行人工智能算法。

        目前产业界绝大多数编译器都是按照 LLVM 体系架构设计的。LLVM 全称 Low Level Virtual Machine,是一种应用广泛的开源编译 器架构。该项目由伊利诺伊大学发起,由于其开源特性,目前已有基 于这个软件框架的大量工具可以使用,形成了具有实际标准意义的生 态。

      英伟达通过提供针对 LLVM 内核的 CUDA 源代码及并行线程执 行后端打造了 CUDA 编译器。该编译器可支持 C、C++以及 Fortran语言,能够为运用大规模并行英伟达 GPU 的应用程序加速。英特尔 基于 LLVM 架构打造 nGraph 计算库,为深度学习提供优化方法,可 以处理所有的计算芯片抽象细节,目前已经开发了 TensorFlow/XLA、 MXNet 和 ONNX 的软件框架桥梁;华盛顿大学基于 LLVM 架构打造 了 NNVM/TVM 编译器,能够直接从多个深度学习前端将工作负载编 译成为优化的机器代码。实现端到端的全面优化。

2.3.2 中间表示层解决可移植性问题

      扩充性能的中间表示层是打通深度学习计算中多种不同前端训 练软件框架和多种不同后端的表达桥梁,使深度学习网络模型编译器 更有效实现二者之间的优化和影射。

2.3.3 未来亟需模型转换及通用的模型表示

       在工程实践上,除了上文提到使用统一的中间表示层对模型进行 表达及存储外,输入数据格式以及模型表示规范也同样是重要的影响 因素。

       主流软件框架输入数据集格式各有不同。由于在训练中已经过清 洗和标注的数据依然面临着多线程读取、对接后端分布式文件系统等 实际操作问题,各主流人工智能软件框架均采用了不同的技术和数据 集格式来实现此类数据操作。如 TensorFlow 定义了 TFRecord、MXNet 及 PaddlePaddle 使用的是 RecordIO 等。

        深度学习网络模型的表示规范分为两大阵营。第一阵营是 Open Neural Network Exchange(ONNX,开放神经网络交换),是一个用 于表示深度学习模型的标准,可使模型在不同软件框架之间进行转移。 ONNX 由微软和 Facebook 联合发布,该系统支持的软件框架目前主 要包括 Caffe2,PyTorch,Cognitive Toolkit 和 MXNet,而谷歌的 TensorFlow 并没有被包含在内。第二阵营是 Neural Network Exchange Format(NNEF,神经网络交换格式),是由 Khronos Group 主导的 跨厂商神经网络文件格式,计划支持包括 Torch, Caffe, TensorFlow, 等 几乎所有人工智能软件框架的模型格式转换,目前已经有 30 多家计 算芯片企业参与其中。

        

2.4 AI 计算芯片提供算力保障

2.4.1. 深度学习对 AI 计算芯片的需求       

       总体来看,深度神经网络对计算芯片的需求主要有以下两个方面:

       、是计算芯片和存储间海量数据通信需求,这里有两个层面,一个是 缓存(Cache)和片上存储(Memory)的要大,另一个是计算单元和 存储之间的数据交互带宽要大。

      二、是专用计算能力的提升,解决对卷 积、残差网络、全连接等计算类型的大量计算需求,在提升运算速度 的同时实现降低功耗。总的来说,AI 计算芯片的发展过程可以总结 为一直在围绕如何有效解决存储与计算单元的提升这两个问题而展 开,成本问题则作为一个舵手控制着最终的航向。

2.4.2 典型 AI 计算芯片的使用现状

        在深度学习训练环节,除了使用 CPU 或 GPU 进行运算外,现场 可编程门阵列( Field-Programmable Gate Array,FPGA) 以及专用 集成电路(Application Specific Integrated Circuit,ASIC)也发挥了重 大作用;而用于终端推断的计算芯片主要以 ASIC 为主。

     关于各种芯片的详情,请参考人工智能发展白皮书-技术架构篇(2018年)

2.5 数据为算法模型提供基础资源

        基于深度学习的人工智能技术,核心在于通过计算找寻数据中的 规律,运用该规律对具体任务进行预测和决断。源数据需要进行采集、 标注等处理后才能够使用,标注的数据形成相应数据集。业务类型主 要包括数据采集、数据处理、数据存储以及数据交易等环节。

2.5.1 数据来源

       当前,人工智能数据集的参与主体主要有以下几类:

       一是学术机 构,为开展相关研究工作,自行采集、标注,并建设学术数据集。这 类数据集以 ImageNet 为代表,主要用于算法的创新性验证、学术竞 赛等,但其迭代速度较慢,难用于实际应用场景。

        二是政府,等中立 机构,他们以公益形式开放的公共数据,主要包括政府、银行机构等 行业数据及经济运行数据等,数据标注一般由使用数据的机构完成。

        三是人工智能企业,他们为开展业务而自行建设数据集,企业一般自 行采集,标注形成自用数据集,或采购专业数据公司提供的数据外包 服务。

        四是数据处理外包服务公司,这类公司业务包括出售现成数据 训练集的使用授权,或根据用户的具体需求提供数据处理服务(用户 提供原始数据、企业对数据进行转写、标注),具体业务服务形式包 括且不限于提供数据库资源、提供数据采集服务,提供数据转写标注 服务等。

2.5.2 数据类型

       当前,人工智能基础数据类型主要包括语音语言类(包括声音、 文字、语言学规则)、图像识别类(包括自然物体、自然环境、人造 物体、生物特征等)以及视频识别类三个大类,从世界范围来看,数 据服务商总部主要分布在美国、欧洲等发达国家。但其数据处理人员 则大多数分布在第三世界国家;我国语音、图像类资源企业机构正处 于快速发展阶段,为产业发展增添了动力。

2.6 高性能计算服务器和服务平台快速发展

      GPU 服务器就是提供计算资源。     

       API服务,说白了就是将人工智能算法应用起来,比如搭建一个人脸识别平台,卖给别人或租给别人用。

2.6.1GPU 服务器

       服务器厂商相继推出了专为 AI 而设计的、搭载 GPU 的服务器。 GPU 服务器是基于 GPU 应用于视频编解码、深度学习、科学计算等 多种场景的计算服务设备。

2.6.2以服务的形式提供人工智能能力成为趋势

       以服务形式提供人工智能服务主要有两类,即平台类的服务和软 件 API 形式的服务。

      平台类服务主要包含 GPU 云服务,深度学习平 台等,类似云服务的基础设施即服务(Infrastructure as a Service,IaaS) 和平台即服务(Platform as a Service,PaaS)层。GPU 云服务是以虚 拟机的形式,为用户提供 GPU 计算资源,可适用于深度学习、科学计算、图形图像渲染、视频解码等应用场景。深度学习平台是以 TensorFlow、Caffe、MXNet、Torch 等主流深度学习软件框架为基础, 提供相应的常用深度学习算法和模型,组合各种数据源、组件模块, 让用户可以基于该平台对语音、文本、图片、视频等海量数据进行离 线模型训练、在线模型预测及可视化模型评估。

       软件 API 服务主要 分为智能语音语类服务和计算机视觉服务。其中智能语音语类服务主 要提供语音语义相关的在线服务,可包括语音识别、语音合成、声纹 识别、语音听转写等。计算机视觉类服务主要提供物体检测、人脸识 别、人脸检测、图像识别、光学字符识别(Optical Character Recognition, OCR)识别、智能鉴黄等服务。

第三章、基于深度学习的基础应用技术现状

        第二章中,主要讨论的是人工智能的一些技术现状,并没有过多讨论目前的工业应用。本章节将讨论人工智能(主要是深度学习)的工业或商业应用。

       本章主要分析目前商业较为成熟的智能语音、自然语言处理和计 算机视觉技术的情况,如图 2 所示,每个基础应用技术各分为若干应 用类别。

3.1、智能语音技术改变人机交互模式 

       智能语音语义技术主要研究人机之间语音信息的处理问题。简单 来说,就是让计算机、智能设备、家用电器等通过对语音进行分析、 理解和合成,实现人“能听会说”、具备自然语言交流的能力。

3.1.1智能语音技术概述

       按机器在其中所发挥作用的不同,分为语音合成技术、语音识别 技术、语音评测技术等。

      语音合成技术即让机器开口说话,通过机器 自动将文字信息转化为语音,相当于机器的嘴巴;语音识别技术即让 机器听懂人说话,通过机器自动将语音信号转化为文本及相关信息, 相当于机器的耳朵;语音评测技术通过机器自动对发音进行评分、检 错并给出矫正指导。此外,还有根据人的声音特征进行身份识别的声 纹识别技术,可实现变声和声音模仿的语音转换技术,以及语音消噪 和增强技术等。

3.1.2智能语音产品和服务形态多样

       智能语音技术会成为未来人机交互的新方式,将从多个应用形态 成为未来人机交互的主要方式。

       智能音箱类产品提升家庭交互的便利性。智能音箱是从被动播放音乐,过渡到主动获取信息、音乐和控制流量的入口。当前智能音箱 以语音交互技术为核心,成为作为智能家庭设备的入口,不但能够连 接和控制各类智能家居终端产品,而且加入了个性化服务,如订票、 查询天气、播放音频等能力。

       个人智能语音助手重塑了人机交互模式。个人语音助手,特别是 嵌入到手机、智能手表、个人电脑等终端中的语音助手,将显著提升 这类产品的易用性。如苹果虚拟语音助手 Siri 与苹果智能家居平台 Homekit 深度融合,用户可通过语音控制智能家居。Google Now 为用 户提供关心的内容,如新闻、体育比赛、交通、天气等等。微软的 Cortana 主要优势在于提升个人计算机的易用性。

       以 API 形式提供的智能语音服务成为行业用户的重要入口。智 能语音 API 主要提供语音语义相关的在线服务,可包括语音识别、语 音合成、声纹识别、语音听转写等服务类型,并且可以嵌入到各类产 品,服务或 APP 中。在商业端,智能客服、教育(口语评测)、医 疗(电子病历)、金融(业务办理)、安防、法律等领域需求强烈; 在个人用户领域,智能手机、自动驾驶及辅助驾驶、传统家电、智能 家居等领域需求强烈。

3.2 计算机视觉技术已在多个领域实现商业化落地

         计算机视觉识别这一人工智能基础应用技术部分已达商业化应 用水平,被用于身份识别、医学辅助诊断、自动驾驶等场景。

3.2.1计算机视觉概述

        一般来讲,计算机视觉主要分为图像分类、目标检测、目标跟踪和图像分割四大基本任务。

        图像分类是指为输入图像分配类别标签。自 2012 年采用深度卷 积网络方法设计的 AlexNet 夺得 ImageNet 竞赛冠军后,图像分类开 始全面采用深度卷积网络。2015 年,微软提出的 ResNet 采用残差思 想,将输入中的一部分数据不经过神经网络而直接进入到输出中,解 决了反向传播时的梯度弥散问题,从而使得网络深度达到 152 层,将 错误率降低到 3.57%,远低于 5.1%的人眼识别错误率,夺得了 ImageNet 大赛的冠军。2017 年提出的 DenseNet 采用密集连接的卷积 神经网络,降低了模型的大小,提高了计算效率,且具有非常好的抗 过拟合性能。

        目标检测指用框标出物体的位置并给出物体的类别。2013 年加 州大学伯克利分校的 Ross B. Girshick 提出 RCNN 算法之后,基于卷 积神经网络的目标检测成为主流。之后的检测算法主要分为两类,一 是基于区域建议的目标检测算法,通过提取候选区域,对相应区域进 行以深度学习方法为主的分类,如 RCNN、Fast-RCNN、Faster-RCNN、 SPP-net 和 Mask R-CNN 等系列方法。二是基于回归的目标检测算法, 如 YOLO、SSD 和 DenseBox 等。

       目标跟踪指在视频中对某一物体进行连续标识。基于深度学习的 跟踪方法,初期是通过把神经网络学习到的特征直接应用到相关滤波 或 Struck 的跟踪框架中,从而得到更好的跟踪结果,但同时也带来了 计算量的增加。最近提出了端到端的跟踪框架,虽然与相关滤波等传 统方法相比在性能上还较慢,但是这种端到端输出可以与其他的任务一起训练,特别是和检测分类网络相结合,在实际应用中有着广泛的 前景。

        图像分割指将图像细分为多个图像子区域。2015 年开始,以全 卷积神经网络(FCN)为代表的一系列基于卷积神经网络的语义分割 方法相继提出,不断提高图像语义分割精度,成为目前主流的图像语 义分割方法。

3.2.2计算机视觉技术应用领域广阔

        在政策引导、技术创新、资本追逐以及消费需求的驱动下,基于 深度学习的计算机视觉应用不断落地成熟,并出现了三大热点应用方 向。

      一是人脸识别抢先落地,开启“刷脸”新时代。

      二是视频结构化崭露头角,拥有广阔应用前景。视频结构化就是 将视频这种非结构化的数据中的目标贴上相对应的标签,变为可通过 某种条件进行搜索的结构化数据。视频结构化技术的目标是实现以机 器自动处理为主的视频信息处理和分析。从应用前景看,视频监控技 术所面临的巨大市场潜力为视频结构化描述提供了广阔的应用前景,很多行业需要实现机器自动处理和分析视频信息,提取实时监控视频 或监控录像中的视频信息,并存储于中心数据库中。用户通过结构化 视频合成回放,可以快捷的预览视频覆盖时间内的可疑事件和事件发 生时间。

        三是姿态识别让机器“察言观色”,带来全新人机交互体验。在 视觉人机交互方面,姿态识别实际上是人类形体语言交流的一种延伸。 它的主要方式是通过对成像设备中获取的人体图像进行检测、识别和 跟踪,并对人体行为进行理解和描述。从用户体验的角度来说,融合 姿态识别的人机交互能产品够大幅度提升人机交流的自然性,削弱人 们对鼠标和键盘的依赖,降低操控的复杂程度。从市场需求的角度来 说,姿态识别在计算机游戏、机器人控制和家用电器控制等方面具有 广阔的应用前景,市场空间十分可观。

3.3自然语言处理成为语言交互技术的核心

       自然语言处理(Natural Language Processing ,NLP)是研究计算 机处理人类语言的一门技术,是机器理解并解释人类写作与说话方式 的能力,也是人工智能最初发展的切入点和目前大家关注的焦点。

3.3.1 自然语言处理技术现状

      自然语言处理主要步骤包括分词、词法分析、语法分析、语义分 析等。

       其中,分词是指将文章或句子按含义,以词组的形式分开,其 中英文因其语言格式天然进行了词汇分隔,而中文等语言则需要对词 组进行拆分。

      词法分析是指对各类语言的词头、词根、词尾进行拆分, 各类语言中名词、动词、形容词、副词、介词进行分类,并对多种词义进行选择。

     语法分析是指通过语法树或其他算法,分析主语、谓语、 宾语、定语、状语、补语等句子元素。

     语义分析是指通过选择词的正 确含义,在正确句法的指导下,将句子的正确含义表达出来。

3.3.2 自然语言处理技术的应用方向

        自然语言处理的应用方向主要有文本分类和聚类、信息检索和过 滤、信息抽取、问答系统、机器翻译等方向。

       文本分类和聚类 主要是将文本按照关键字词做出统计,建造一个索引库,这样当有关 键字词查询时,可以根据索引库快速地找到需要的内容。此方向是搜 索引擎的基础。

      信息检索和过滤是网络瞬时检查的应用范畴,在大流 量的信息中寻找关键词,找到后对关键词做相应处理。

      信息抽取是为 人们提供更有力的信息获取工具,直接从自然语言文本中抽取事实信 息。

      机器翻译是当前最热门的应用方向,目前微软、谷歌的新技术是 翻译和记忆相结合,通过机器学习,将大量以往正确的翻译存储下来。 谷歌使用深度学习技术,显著提升了翻译的性能与质量。

第四章 问题和趋势展望

4.1、主要问题

4.1.1在算法层面,深度学习算法模型存在可靠性及不可解释性问题。

         首先是可靠性问题,深度学习模型离开训练使用的场景数据,其实际 效果就会降低。由于训练数据和实际应用数据存在区别,训练出的模 型被用于处理未学习过的数据时,表现就会降低。其次是不可解释性 问题,深度学习计算过程为黑盒操作,模型计算及调试的执行规则及 特征选取由机器自行操作,目前尚无完备理论能够对模型选取及模型本身做出合理解释,随着相关算法在实际生产生活中的融合应用,存 在产生不可控结果的隐患。

4.1.2在数据层面,主要存在流通不畅、数据质量良莠不齐和关键数据 集缺失等问题。

        具体来看,一是数据流通不畅。目前人工智能数据集 主要集中在政府和大公司手里,受制于监管、商业门槛等问题,数据 无法有效流动;部分有价值数据,如监控、电话客服等数据目前没有 合法渠道获得;二是数据质量良莠不齐。数据标注主要通过外包形式, 劳动力水平决定了产出的标注数据质量。三是关键领域和学术数据集 不足。计算机视觉、自然语言处理等领域的数据资源严重不足,同时 目前我国产业数据主要供给给产业界,目前学术界数据集数量较少, 可能影响科研及前瞻性的技术研究。

4.1.3在软件框架层面,实现深度学习应用落地的推断软件框架质量参 差不齐,制约了业务开展。

          由于深度学习应用场景众多,相关应用呈 现碎片化特点,用于实现最后应用落地的开源推断软件框架无论在功 能还是性能层面距离实际需求还存在相当距离,与训练软件框架趋同 趋势不同,产业界所使用的推断软件框架需要聚力研发,尚未形成具 有实际标准意义的优秀实例。

4.1.4在编译器层面,各硬件厂商的中间表示层之争成为技术和产业发 展的阻碍。

       目前业界并没有统一的中间表示层标准,并且模型底层表 示、存储及计算优化等方面尚未形成事实标准,导致各硬件厂商解决 方案存在一定差异,导致应用模型迁移不畅,提高了应用部署难度。

4.1.5 在 AI 计算芯片层面,云侧和终端侧对计算芯片提出了不同的要求。

       对于云侧芯片,随着深度学习计算需求的逐渐增加,业界希望在 提升云侧芯片运算效能的前提下,希望针对不同网络实现更优化的性 能表现,而功耗比则不是首要关注的因素;对于终端侧芯片,在功耗 为首要要求的情况下,更加注重的推断运算的性能,并且不同终端应 用场景对芯片提出了更多个性化需求,如在人脸识别摄像头、自动驾 驶汽车等场景。

4.2、趋势展望

4.2.1迁移学习的研究及应用将成为重要方向

        迁移学习由于侧重对深 度学习中知识迁移、参数迁移等技术的研究,能够有效提升深度学习 模型复用性,同时对于深度学习模型解释也提供了一种方法,能够针 对深度学习算法模型可靠性及不可解释性问题提供理论工具。

4.2.2深度学习训练软件框架将逐渐趋同,开源推断软件框架将迎来发 展黄金期。

         随着人工智能应用在生产生活中的不断深入融合,对于推 断软件框架功能及性能的需求将逐渐爆发,催生大量相关工具及开源 推断软件框架,降低人工智能应用部署门槛。

4.2.3中间表示层之争将愈演愈烈

       以计算模型为核心的深度学习应用, 由于跨软件框架体系开发及部署需要投入大量资源,因此模型底层表 示的统一将是业界的亟需,未来中间表示层将成为相关企业的重点。

4.2.4AI 计算芯片朝云侧和终端侧方向发展

        从云侧计算芯片来看, 目前 GPU 占据主导市场,以 TPU 为代表的 ASIC 只用在巨头的闭环 生态,未来 GPU、TPU 等计算芯片将成为支撑人工智能运算的主力 器件,既存在竞争又长期共存,一定程度可相互配合;FPGA 有望在数据中心中以 CPU+FPGA 形式作为有效补充。从终端侧计算芯片来 看,这类芯片将面向功耗、延时、算力、特定模型、使用场景等特定 需求,朝着不同发展。

4.2.5行业巨头以服务平台为核心打造生态链

        对于国内外的云服务和 人工智能巨头,如亚马逊、微软,阿里云、腾讯云、科大讯飞、旷视 科技等企业,将围绕各自应用,与设备商、系统集成商、独立软件开 发商等联合,为政府,企业等垂直领域提供一站式服务,共同打造基 于服务平台的生态系统。

第五章、权威机构

5.1、国内

中国信通院

       中国信通院,是国内唯一的、专门用来发布信息通信类重大文件(往往是白皮书)的机构。经常发布5G、物联网、互联网、车联网等等白皮书。

http://www.caict.ac.cn/kxyj/qwfb/bps/index_1.htm

人工智能发展白皮书-技术架构篇(2018年)

人工智能安全白皮书(2018)

2018世界人工智能产业发展蓝皮书

电信网络人工智能应用白皮书(2018 年)

《 深度学习技术选型白皮书(2018 年)

5.2、国外

xxxx

 

第六章 结论

1、迁移学习算法的研究及应用将成为重要方向

2、对于大公司,你可以做软件架构、中间标准、顶层芯片。

3、对于小公司,你可以做服务、做平台、做算法实现(模块)、做语音产品、人脸识别产品、做翻译、语音或图像信息分类等等。

4、个人、研究机构:做算法场景实现或改进。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

(一)人工智能大纲摘要:《人工智能发展白皮书-技术架构篇(2018年9月)》 的相关文章

  • Vue监听滚动实现锚点定位(双向)

    这里很感谢 http www jb51 net article 110325 htm 这篇文章带来的启发 但是我和他不同 网上的方法都是 这样计算滚动条距离窗口顶部的距离 注意是窗口 用的是document对象 Chrome documen
  • 面试准备:Spring/Spring MVC常见面试题汇总

    文章目录 1 Spring框架有什么优点 2 什么是AOP 3 实现AOP的方式 AOP织入的三种时期 Spring AOP是怎么实现的 4 JDK动态代理实现方式 5 PageHelper实现方式 6 什么是IoC 什么是DI 7 Spr
  • NEON技术粗浅认识

    1 简介 微处理器处理数据主要分为以下几种 Single instruction single data SISD Single instruction multiple data vectormode SIMD Single instru
  • 为什么被马斯克解雇了3次,特斯拉自动驾驶团队却越来越强?

    很多人问我 作为一个汽车厂商 怎么样才能够抓住汽车智能化的时代机遇 建立自动驾驶自研能力 因为其中最让人头疼的就是建立人工智能 AI 自研能力 车厂已经意识到自动驾驶自研能力非常重要 2021年6月30日 上汽集团董事长陈虹在股东大会回答股
  • QString,const char*,char*相互直接转换方法

    整合网络上的解决方法 解决方法一 1 string转const char string s abc const char c s s c str const char 转string 直接赋值即可 const char c s abc st
  • Python学习小记(1)—命令指示符

    一 命令指示符如何打开使用 1 使用组合快捷键 Win R 打开运行对话框 然后在打开后面输入 cmd 命令操作符快捷名称 2 电脑的开始 附件里面找到命令提示符入口 二 学习Python时 常用的命令语句 1 当先进入某盘时 直接输入盘的
  • Arduino VS 树莓派:哪个才是你的菜?

    假设你正在寻找一台微型计算机 它能够驱动一台激光炮塔向彩色气球射击 作为一名极客 你可能常会幻想到类似的场景 那么你很可能已经听说过Arduino和树莓派 Raspberry Pi 了 但是却拿不定主意 到底哪种微型计算机才适合你的个人项目
  • centos7的一些变化,firewalld替换iptables、systemctl 替换service

    1 防火墙命令用firewalld取代了iptables了 查看防火墙状态 systemctl status firewalld 临时关闭防火墙命令 reboot之后 防火墙自动起来 systemctl stop firewalld 永久关
  • QGIS加载谷歌地图(google map)方法

    目录 第一步 第二步 将Google提供的网络地图 包括地图和卫星影像等 作为图层加载到QGIS中 有时可辅助地学分析 QGIS已经提供了OpenStreetMap 在 XYZ Tiles 里面加载即可 谷歌街道地图 http mt2 go
  • 同样是做自媒体,为什么有的人能月入过万,你只能月入几块?

    经常有粉丝跟大周说 自媒体的红利期是不是已经过去了呢 收益低 做自媒体的收益还不够交电费的呢 同样是做自媒体 为什么有的人可以月入过万甚至更多 而一些人只能收益个位数甚至赚不到钱 我们都知道小马过河的故事 牛告诉小马河很浅 松鼠告诉小马河很
  • server 2003搭建文件服务器,使用Windows Server 2003搭建安全文件服务器

    ZDNetChina服务器站 8月14日x86技巧 启用并配置文件服务 Windows Server 2003的管理工具中有一项功能叫做 管理您的服务器 启动该工具之后 可以看到当前服务器上启用的所有服务 并可对这些服务进行管理 点击该界面
  • IOC和DI的关系

    IOC 控制反转 全称为 Inverse of Control 将对在自身对象中的一个内置对象的控制反转 反转后不再由自己本身的对象进行控制这个内置对象的创建 而是由第三方系统去控制这个内置对象的创建 简单来说就是把本来在类内部控制的对象
  • LLM Data Pipelines: 解析大语言模型训练数据集处理的复杂流程

    编者按 在训练大语言模型的过程中 构建高质量的训练数据集是非常关键的一步 但关于构建大模型训练所需数据集的通用数据处理流程 Data pipelines 的相关资料极为稀少 本文主要介绍了基于Common Crawl数据集的数据处理流程 首
  • 基于Spring Boot+ Vue的健身房管理系统与实现

    小熊学Java全能学 面试指南 https javaxiaobear cn 摘要 随着健身行业的快速发展 健身房管理系统成为了提高管理效率和用户体验的重要工具 本论文旨在设计与实现一种基于前后端分离的健身房管理系统 通过前后端分离的架构模式
  • R语言笔记:机器学习【决策树(Decision Tree】

    写在开头 我是一个学R的小白 因为读研老师要求开始接触R 记一记笔记留给自己以后回顾 顺便分享出来嘻嘻 我把需要深入的的函数进行介绍 方便了解这些函数的用法 一些简单的函数我就不放出来啦 决策树这部分的笔记主要是利用分类回归法哈 rpart
  • Python_集合去重的底层原理

    Python 集合去重的底层原理 https www cnblogs com linshuhui p 9580620 html
  • JAVA枚举类型(enum)的巧妙应用

    枚举类型的应用 实例 总结 根据接口文档的需求 需要使用通用的返回值类型进行返回 实例 return 调用的error方法就是先new一个ApiRestResponse对象 然后返回 之前在controller层调用的ImoocMallEx
  • Java和Java之父

    詹姆斯 高斯林 James Gosling 1955年5月19日出生于加拿大 是Java编程语言的共同创始人之一 一般公认他为 Java之父 1983年高斯林获得了美国卡内基梅隆大学计算机科学博士学位 博士论文的题目是 The Algebr
  • python编程语言介绍-Python基础手册 1 —— Python语言介绍

    python logo png Python 是一门优雅而健壮的编程语言 它继承了传统编译语言的强大性和通用性 同时也借鉴了脚本语言和解释语言的简单性和易用性 一 Python 的历史 Python是由创始人贵铎 范 罗萨姆 Guido v

随机推荐

  • js 字符串转换数字

    本文转载至 http www phpweblog net linxiaobo archive 2008 12 29 6250 html PS 今天用到了 一下子想不起来 所以写下来 省得下次又找 方法主要有三种 转换函数 强制类型转换 利用
  • centos 上安装redis 3.0.5

    官网下载安装包 直接使用make编译 报如下错误 root localhost redis 3 0 5 make cd src make all make 1 进入目录 usr local opentest redis 3 0 5 src
  • 记一次udf提权

    靶场myandmygirlfriend 前面的信息收集就不说了 arp scan l nmap扫描主机和端口 dirsearch扫描目录 打开页面可以看到 only be accessed local 谷歌翻译发现是只能本地访问 看一眼源码
  • Problem:ImageView不能显示图片。

    1 问题分析 要实现的功能是 ImageView被加载进了一个绝对布局对象中 并通过不断地设置LayoutParam来改变其位置 其中ImageView中的图片是以方法setBackgroundDrawable加载的 而用此方法 在过去有一
  • STM32ADC多通道采集(基于DMA)

    首先简单介绍DMA DMA Direct Memory Access 直接内存存取 用来提供在外设和存储器之间或者存储器和存储器之间的高速数据传输 无需CPU干预 节省CPU资源 ADC转换出来的值直接赋值给定义好的变量中 配置好的DMA可
  • PCA降维算法的介绍、多角度推导及python实现

    一 算法原理及数学推导 在对于数据的处理上 特征维度过高经常是一个无法忽视的问题 但是单纯的降维压缩对于数据本身会使得数据信息遭到严重损失 不过以PCA为代表的线性降维算法对这方面有所保证 它的目标是通过某种线性投影 将高维的数据映射到低维
  • JVM内存模型

    内存模型主要分为共享内存和线程独享内存 内存分配原理为1 JVM先检查new关键字 并在常量池中定位到一个类的引用 2 检查定位到的类是否已经经过了加载 解析 初始化等步骤 3 为其分配内存 存储对象实例 一 共享内存 1 运行时常量池 编
  • C++连接数据库

    一 sql h ifndef SQL H define SQL H include
  • 聊聊Spring注解@Transactional失效的那些事

    一 前言 emm 又又又踩坑啦 这次的需求主要是对逾期计算的需求任务进行优化 现有的计算任务运行时间太长了 简单描述下此次的问题 在项目中进行多个数据库执行操作时 我们期望的是将其整个封装成一个事务 要么全部成功 或者全部失败 然而在自测异
  • 通过刷脸来支付的确带给了我们很多便利

    在携带手机不方便或者受到限制的场所 也是刷脸支付的重要应用场景 比如游泳池附近 海边沙滩游乐场 比如易燃易爆的场所 学校 工厂等禁用手机的地方 随着刷脸支付如此私密的功能被越来越多的人接受 刷脸功能也一定不会止步于此 未来更多场景的应用是大
  • bottle.py 实现批量文件上传

    bottle py是python的一个Web框架 整个框架只有一个文件 几十K 却自带了路径映射 模板 简单的数据库访问等web框架组件 确实是个可用的框架 初学web开发可以拿来玩玩 其语法简单 部署也很方便 官方文档 http bott
  • 女程序员珍妮的故事

    我不想说出她的名字 这里就叫她珍妮吧 珍妮有5个最好的朋友 其中2个是 Google 的工程师 一个是 Eventbrite 的工程师 一个是架构师 另外一个是她的老爸 一个很可爱的人 是珍妮家乡的州足球队的主席 珍妮毕业时拿的是企业管理专
  • 梯度隐私泄露

    梯度隐私泄露 动机 梯度泄露推测方法 DLG 梯度泄露防御方法 梯度信息推测出数据集信息 三种预设 参考文献 动机 传统认为 在用户与用户 用户与中心之间传输梯度信息是安全的 本文打破了这种理所当然 已知学习模型 权重参数W和真实梯度 W
  • centos 运行.exe文件 storescu.exe 上传 DICOM文件

    由于不会使用DCMTK源码在centos中进行运行 所以使用windows下的exe进行上传 windows 下 DICOM文件上传命令 storescu exe aec LINKINGMED IP 104 v D DICOMSOURCE
  • linux开机自动挂载

    1 修改文件 vim etc fstab 在文件最后一行添加内容 dev cdrom mnt iso9660 defaults 0 0 2 验证是否挂载成功
  • mac打开ssh服务器文件,mac ssh 远程服务器文件

    mac ssh 远程服务器文件 内容精选 换一换 已成功登录Java性能分析 待安装Guardian的服务器已开启sshd 待安装Guardian的服务器已安装JRE JRE版本要求为Huawei JDK 8或者Open JDK 8 11
  • python s append_pandas中如何使用合并append函数?

    介绍了这么多关于pandas拼接的方法 那你知道如果想要拼接拼接一个或者多个 还可以追加serise到原来的dataframe里面如何操作吗 其实还是很简单的 使用append函数就可以解决 本文介绍pandas中使用合并append函数的
  • qq里面发送图片显示服务器被拒绝,如何解决qq无法发送图片的问题

    原因一 一般是网速比较慢 电信联通教育他们内部传图片大家都能收到 教育网给联通发就一般收不到了 清理下你的QQ图片文件夹 里面堆积的图片太多了 原因二 由于网络问题 查看手机移动数据流量或者wifi连接是否正常 QQ版本问题 将QQ版本升级
  • Python 中 pass的使用

    def sample n samples Generate random samples from the fitted Gaussian distribution pass 在python中有时候能看到定义一个def函数 函数内容部分填写
  • (一)人工智能大纲摘要:《人工智能发展白皮书-技术架构篇(2018年9月)》

    以下博客的主要内容 摘自白皮书 http www caict ac cn kxyj qwfb bps index 1 htm 人工智能发展白皮书 技术架构篇 2018年 人工智能安全白皮书 2018 2018世界人工智能产业发展蓝皮书 电信