当前位置: 首页 > >

(一)人工智能大纲摘要:《人工智能发展白皮书-技术架构篇(2018年9月)》

发布时间:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?以下博客的主要内容,摘自白皮书。

http://www.caict.ac.cn/kxyj/qwfb/bps/index_1.htm


《人工智能发展白皮书-技术架构篇(2018年)》


《人工智能安全白皮书(2018)》


《2018世界人工智能产业发展蓝皮书》


《电信网络人工智能应用白皮书(2018 年)》


《?深度学*技术选型白皮书(2018 年)》
?


第一章、人工智能技术背景? ?
1.1 发展历程

1、1943 年麦卡洛克和皮茨创立的脑模型,受当时理论模型、生物原型和技术条件的限制。


2、1982 年霍普菲尔特提出的 Hopfield 神经网络模型和1986 年鲁梅尔哈特等人提出的反向传播算法,使得神经网络的理论研究取 得了突破。


3、2006 年,连接主义的领军者 Hinton 提出了深度学*算法, 使神经网络的能力大大提高。


4、2012 年,使用深度学*技术的 AlexNet 模型在 ImageNet 竞赛中获得冠军。


1.2 深度学*

? ? ? ? ?深度学* 全称深度神经网络,本质上是多层次的人工神经网络算法,即从结构 上模拟人脑的运行机制,从最基本的单元上模拟了人类大脑的运行机 制。深度学*已经开始在计算机视觉、语音识别、自然语言理解等领 域取得了突破。


? ? ??1.2.1 语音识别领域

2010 年,使用深度神经网络模型 的语音识别相对传统混合高斯模型识别错误率降低超过 20%,目前所 有的商用语音识别算法都基于深度学*。


? ? ? 1.2.2 图像分类领域

? ? ? ?目前针对 ImageNet 数据集的算法分类精度已经达到了 95%以上,可以与人的 分辨能力相当。深度学*在人脸识别、通用物体检测、图像语义分割、 自然语言理解等领域也取得了突破性的进展。


1.3 技术架构

? ? ? 该技术架构,为做产品提供了一个基础的模型,产品的软硬件、接口等等,必须符合一定的标准。


? ? ? ? ?


第二章、基于深度学*的人工智能技术现状
2.1 算法发展现状

? ? ? 人工智能目前在理论上,主要表现在算法的研究上,如下表所示。我们要学*,往往结合相应的数学理论,针对下面的典型算法进行学*,达到理想的算法效果。



2.1.1、回归任务的算法。

? ? ? ? ? 回归是一种用于连续型数值变量预测和建模的监督学*算法。目前回归算法最为常用的主要有四种,即线性回 归(正则化)、回归树(集成方法)、最邻*算法和深度学*。


2.1.2、分类任务的算法。

? ? ? ? 分类算法用于分类变量建模及预测的监督学*算法, 分类算法往往适用于类别(或其可能性)的预测。其中最为常用的算 法主要有五种,分别为逻辑回归(正则化)、分类树(集成方法)、 支持向量机、朴素贝叶斯和深度学*方法。


2.1.3、聚类任务的算法。

? ? ? ? 聚 类算法基于数据内部结构来寻找样本集群的无监督学*任务,使用案 例包括用户画像、电商物品聚类、社交网络分析等。其中最为常用的 算法主要有四种即 K 均值、仿射传播、分层/层次和聚类算法 (Density-Based Spatial Clustering of Applications with Noise,DBSCAN)。


2.1.4、其他算法

? ? ? 还有其他新的或改进的算法,能达到更好的效果。比如如胶囊网络、生成对抗网络、迁移学*等(详解见《人工智能发展白皮书-技术架构篇(2018年)》)。


? ? ?其中,迁移学*可大大降低深度网络训练所需 的数据量,缩短训练时间。具有节省时间成本、模型泛化能力好、实现 简单、少量的训练数据就可以达到较好效果的优势,已获得广泛应用。


2.2 软件框架

? ? ??当前,人工智能基础性算法已经较为成熟,各大厂商纷纷发力建 设算法模型工具库,并将其封装为软件框架,供开发者使用,可以说 软件框架是算法的工程实现。业界目前主要有深度学 *训练软件框架和推断软件框架两大类别。


2.2.1深度学*训练软件框架

? ? ? 目前主流的深 度学*训练软件框架主要有 TensorFlow,MXNet,Caffe/2+PyTorch,Microsoft Cognitive Toolkit (CNTK)?、PaddlePaddle等。(有些是开源的,有些非开源的)


? ? ??TensorFlow 以其功能全面,兼容性广泛和生态完备而著称。该 软件框架由谷歌大脑(Google Brain)团队主要支撑,实现了多 GPU 上运行深度学*模型的功能,可以提供数据流水线的使用程序,并具 有模型检查,可视化和序列化的配套模块。其生态系统已经成为深度 学*开源软件框架最大的活跃社区。


? ? ??MXNet 以其优异性能及全面的*台支持而著称。该软件框架是 由亚马逊公司(Amazon)主导的深度学**台,目前已经捐献到阿 帕奇软件基金会(Apache)进行孵化。其主要特点包括:一是可以在 全硬件*台(包括手机端)运行,提供包括 Python、R 语言、Julia、 C++、Scala、Matlab 以及 Javascript 的编程接口;二是具有灵活的编 程模型,支持命令式和符号式编程模型;三是从云端到客户端可移植, 可运行于多 CPU、多 GPU、集群、服务器、工作站及移动智能手机; 四是支持本地分布式训练,在多 CPU/GPU 设备上的分布式训练,使 其可充分利用计算集群的规模优势。


? ? ?Caffe/2+PyTorch 以其在图像处理领域的深耕和易用性而著称。 该软件框架是由脸书公司(*)主导的*台,目前 Caffe 1/2 两个项目已经合并到 PyTorch 统一维护。在图像处理领域 Caffe 有着 深厚的生态积累,结合 PyTorch 作为一个易用性很强的软件框架,越 来越受到数据科学家的喜爱。我国很多人工智能图像处理团队选择PyTorch 作为主要工作*台。


? ? ??Microsoft Cognitive Toolkit (CNTK)以其在智能语音语义领域的 优势及良好性能而著称。该软件框架由微软公司于 2016 年基于 MIT 协议开源,它具有速度快、可扩展性强、商业级质量高以及 C++和 Python 兼容性好等优点,支持各种神经网络模型、异构及分布式计算, 依托于微软的产品生态,在语音识别、机器翻译、类别分析、图像识 别、图像字幕、文本处理、语言理解和语言建模等领域都拥有良好应 用。


? ? ? ?PaddlePaddle 以其易用性和支持工业级应用而著称。该软件框架 是百度旗下的深度学*开源*台,是我国自主开发软件框架代表。其 最大特点就是易用性,得益于其对算法的封装,对于现成算法(卷积 神经网络 VGG、深度残差网络 ResNet、长短期记忆网络 LSTM 等) 的 使用可以直接执行命令替换数据进行训练。非常适合需要成熟稳定的 模型来处理新数据的情况。


2.2.2 深度学*推断软件框架

? ? ? ?以下模型可以提供PC或手机端。


? ? ? ?Caffe2go 是最早出现的终端侧推断软件框架,能够让深层神经网 络在手机上高效的运行。由于终端侧的 GPU 设备性能有限,Caffe2go 是基于 CPU 的优化进行设计。


? ? ? TensorFlow Lite 可以运行在 Android 和 iOS *台,结合 Android 生态的神经网络运行时能够实现较为高效 的 AI 移动端应用速度。


? ? ? NCNN 是腾讯开源的终端侧 AI 软件框架, 支持多种训练软件框架的模型转换,是主要面向 CPU 的 AI模型应用, 无第三方依赖具有较高的通用性,运行速度突出,是国内目前较为广 泛使用的终端侧 AI 软件框架。


? ? ? Core ML 是苹果公司开发的 iOS AI 软件框架,能够对接 Caffe、PyTorch、MXNet、TensorFlow 等绝大部 分 AI 模型,并且自身提供了常用的各种手机端 AI 模型组件,目前也 汇集了众多开发者及贡献力量。


? ? ? Paddle-mobile 是百度自研的移动端 深度学*软件框架,主要目的是将 Paddle 模型部署在手机端,其支 持 iOS GPU 计算。但目前功能相对单一,支持较为有限。


? ? ? TensorRT 是英伟达(NVIDIA)开发的深度学*推断工具,已经支持 Caffe、 Caffe2、TensorFlow、MXNet、PyTorch 等主流深度学*库,其底层针 对 NVIDIA 显卡做了多方面的优化,可以和 CUDA 编译器结合使用。


2.3 编译器
2.3.1 深度学*网络模型编译器解决适应性问题? ? ? ? ?

? ? ? ? 深度学*网络模型编译器解决适应性问题,就是实现底层与软件的接口,使得不同的软件*台可以移植到不同的硬件*台,从而在该软件*台运行人工智能算法。


? ? ? ? 目前产业界绝大多数编译器都是按照 LLVM 体系架构设计的。LLVM 全称 Low Level Virtual Machine,是一种应用广泛的开源编译 器架构。该项目由伊利诺伊大学发起,由于其开源特性,目前已有基 于这个软件框架的大量工具可以使用,形成了具有实际标准意义的生 态。


? ? ? 英伟达通过提供针对 LLVM 内核的 CUDA 源代码及并行线程执 行后端打造了 CUDA 编译器。该编译器可支持 C、C++以及 Fortran语言,能够为运用大规模并行英伟达 GPU 的应用程序加速。英特尔 基于 LLVM 架构打造 nGraph 计算库,为深度学*提供优化方法,可 以处理所有的计算芯片抽象细节,目前已经开发了 TensorFlow/XLA、 MXNet 和 ONNX 的软件框架桥梁;华盛顿大学基于 LLVM 架构打造 了 NNVM/TVM 编译器,能够直接从多个深度学*前端将工作负载编 译成为优化的机器代码。实现端到端的全面优化。


2.3.2 中间表示层解决可移植性问题

? ? ? 扩充性能的中间表示层是打通深度学*计算中多种不同前端训 练软件框架和多种不同后端的表达桥梁,使深度学*网络模型编译器 更有效实现二者之间的优化和影射。


2.3.3 未来亟需模型转换及通用的模型表示

? ? ? ?在工程实践上,除了上文提到使用统一的中间表示层对模型进行 表达及存储外,输入数据格式以及模型表示规范也同样是重要的影响 因素。


? ? ? ?主流软件框架输入数据集格式各有不同。由于在训练中已经过清 洗和标注的数据依然面临着多线程读取、对接后端分布式文件系统等 实际操作问题,各主流人工智能软件框架均采用了不同的技术和数据 集格式来实现此类数据操作。如 TensorFlow 定义了 TFRecord、MXNet 及 PaddlePaddle 使用的是 RecordIO 等。


? ? ? ? 深度学*网络模型的表示规范分为两大阵营。第一阵营是 Open Neural Network Exchange(ONNX,开放神经网络交换),是一个用 于表示深度学*模型的标准,可使模型在不同软件框架之间进行转移。 ONNX 由微软和 * 联合发布,该系统支持的软件框架目前主 要包括 Caffe2,PyTorch,Cognitive Toolkit 和 MXNet,而谷歌的 TensorFlow 并没有被包含在内。第二阵营是 Neural Network Exchange Format(NNEF,神经网络交换格式),是由 Khronos Group 主导的 跨厂商神经网络文件格式,计划支持包括 Torch, Caffe, TensorFlow, 等 几乎所有人工智能软件框架的模型格式转换,目前已经有 30 多家计 算芯片企业参与其中。


? ? ? ??


2.4?AI 计算芯片提供算力保障
2.4.1. 深度学*对 AI 计算芯片的需求? ? ? ?

? ? ? ?总体来看,深度神经网络对计算芯片的需求主要有以下两个方面:


? ? ? ?、是计算芯片和存储间海量数据通信需求,这里有两个层面,一个是 缓存(Cache)和片上存储(Memory)的要大,另一个是计算单元和 存储之间的数据交互带宽要大。


? ? ? 二、是专用计算能力的提升,解决对卷 积、残差网络、全连接等计算类型的大量计算需求,在提升运算速度 的同时实现降低功耗。总的来说,AI 计算芯片的发展过程可以总结 为一直在围绕如何有效解决存储与计算单元的提升这两个问题而展 开,成本问题则作为一个舵手控制着最终的航向。


2.4.2?典型 AI 计算芯片的使用现状

? ? ? ? 在深度学*训练环节,除了使用 CPU 或 GPU 进行运算外,现场 可编程门阵列( Field-Programmable Gate Array,FPGA) 以及专用 集成电路(Application Specific Integrated Circuit,ASIC)也发挥了重 大作用;而用于终端推断的计算芯片主要以 ASIC 为主。



? ? ?关于各种芯片的详情,请参考《人工智能发展白皮书-技术架构篇(2018年)》


2.5 数据为算法模型提供基础资源

? ? ? ? 基于深度学*的人工智能技术,核心在于通过计算找寻数据中的 规律,运用该规律对具体任务进行预测和决断。源数据需要进行采集、 标注等处理后才能够使用,标注的数据形成相应数据集。业务类型主 要包括数据采集、数据处理、数据存储以及数据交易等环节。


2.5.1 数据来源

? ? ? ?当前,人工智能数据集的参与主体主要有以下几类:


? ? ? ?一是学术机 构,为开展相关研究工作,自行采集、标注,并建设学术数据集。这 类数据集以 ImageNet 为代表,主要用于算法的创新性验证、学术竞 赛等,但其迭代速度较慢,难用于实际应用场景。


? ? ? ? 二是政府,等中立 机构,他们以公益形式开放的公共数据,主要包括政府、银行机构等 行业数据及经济运行数据等,数据标注一般由使用数据的机构完成。


? ? ? ? 三是人工智能企业,他们为开展业务而自行建设数据集,企业一般自 行采集,标注形成自用数据集,或采购专业数据公司提供的数据外包 服务。


? ? ? ? 四是数据处理外包服务公司,这类公司业务包括出售现成数据?训练集的使用授权,或根据用户的具体需求提供数据处理服务(用户 提供原始数据、企业对数据进行转写、标注),具体业务服务形式包 括且不限于提供数据库资源、提供数据采集服务,提供数据转写标注 服务等。


2.5.2 数据类型

? ? ? ?当前,人工智能基础数据类型主要包括语音语言类(包括声音、 文字、语言学规则)、图像识别类(包括自然物体、自然环境、人造 物体、生物特征等)以及视频识别类三个大类,从世界范围来看,数 据服务商总部主要分布在美国、欧洲等发达国家。但其数据处理人员 则大多数分布在第三世界国家;我国语音、图像类资源企业机构正处 于快速发展阶段,为产业发展增添了动力。


2.6 高性能计算服务器和服务*台快速发展

? ? ? GPU 服务器就是提供计算资源。? ? ?


? ? ? ?API服务,说白了就是将人工智能算法应用起来,比如搭建一个人脸识别*台,卖给别人或租给别人用。


2.6.1GPU 服务器

? ? ? ?服务器厂商相继推出了专为 AI 而设计的、搭载 GPU 的服务器。 GPU 服务器是基于 GPU 应用于视频编解码、深度学*、科学计算等 多种场景的计算服务设备。


2.6.2以服务的形式提供人工智能能力成为趋势

? ? ? ?以服务形式提供人工智能服务主要有两类,即*台类的服务和软 件 API 形式的服务。


? ? ? *台类服务主要包含 GPU 云服务,深度学** 台等,类似云服务的基础设施即服务(Infrastructure as a Service,IaaS) 和*台即服务(Platform as a Service,PaaS)层。GPU 云服务是以虚 拟机的形式,为用户提供 GPU 计算资源,可适用于深度学*、科学计算、图形图像渲染、视频解码等应用场景。深度学**台是以 TensorFlow、Caffe、MXNet、Torch 等主流深度学*软件框架为基础, 提供相应的常用深度学*算法和模型,组合各种数据源、组件模块, 让用户可以基于该*台对语音、文本、图片、视频等海量数据进行离 线模型训练、在线模型预测及可视化模型评估。


? ? ? ?软件 API 服务主要 分为智能语音语类服务和计算机视觉服务。其中智能语音语类服务主 要提供语音语义相关的在线服务,可包括语音识别、语音合成、声纹 识别、语音听转写等。计算机视觉类服务主要提供物体检测、人脸识 别、人脸检测、图像识别、光学字符识别(Optical Character Recognition, OCR)识别、智能鉴黄等服务。


第三章、基于深度学*的基础应用技术现状

? ? ? ? 第二章中,主要讨论的是人工智能的一些技术现状,并没有过多讨论目前的工业应用。本章节将讨论人工智能(主要是深度学*)的工业或商业应用。


? ? ? ?本章主要分析目前商业较为成熟的智能语音、自然语言处理和计 算机视觉技术的情况,如图 2 所示,每个基础应用技术各分为若干应 用类别。



3.1、智能语音技术改变人机交互模式?

? ? ? ?智能语音语义技术主要研究人机之间语音信息的处理问题。简单 来说,就是让计算机、智能设备、家用电器等通过对语音进行分析、 理解和合成,实现人“能听会说”、具备自然语言交流的能力。


3.1.1智能语音技术概述

? ? ? ?按机器在其中所发挥作用的不同,分为语音合成技术、语音识别 技术、语音评测技术等。


? ? ? 语音合成技术即让机器开口说话,通过机器 自动将文字信息转化为语音,相当于机器的嘴巴;语音识别技术即让 机器听懂人说话,通过机器自动将语音信号转化为文本及相关信息, 相当于机器的耳朵;语音评测技术通过机器自动对发音进行评分、检 错并给出矫正指导。此外,还有根据人的声音特征进行身份识别的声 纹识别技术,可实现变声和声音模仿的语音转换技术,以及语音消噪 和增强技术等。


3.1.2智能语音产品和服务形态多样

? ? ? ?智能语音技术会成为未来人机交互的新方式,将从多个应用形态 成为未来人机交互的主要方式。


? ? ?? 智能音箱类产品提升家庭交互的便利性。智能音箱是从被动播放音乐,过渡到主动获取信息、音乐和控制流量的入口。当前智能音箱 以语音交互技术为核心,成为作为智能家庭设备的入口,不但能够连 接和控制各类智能家居终端产品,而且加入了个性化服务,如订票、 查询天气、播放音频等能力。


? ? ? ?个人智能语音助手重塑了人机交互模式。个人语音助手,特别是 嵌入到手机、智能手表、个人电脑等终端中的语音助手,将显著提升 这类产品的易用性。如苹果虚拟语音助手 Siri 与苹果智能家居*台 Homekit 深度融合,用户可通过语音控制智能家居。Google Now 为用 户提供关心的内容,如新闻、体育比赛、交通、天气等等。微软的 Cortana 主要优势在于提升个人计算机的易用性。


? ? ? ?以 API 形式提供的智能语音服务成为行业用户的重要入口。智 能语音 API 主要提供语音语义相关的在线服务,可包括语音识别、语 音合成、声纹识别、语音听转写等服务类型,并且可以嵌入到各类产 品,服务或 APP 中。在商业端,智能客服、教育(口语评测)、医 疗(电子病历)、金融(业务办理)、安防、法律等领域需求强烈; 在个人用户领域,智能手机、自动驾驶及辅助驾驶、传统家电、智能 家居等领域需求强烈。


3.2 计算机视觉技术已在多个领域实现商业化落地

? ? ? ? ?计算机视觉识别这一人工智能基础应用技术部分已达商业化应 用水*,被用于身份识别、医学辅助诊断、自动驾驶等场景。


3.2.1计算机视觉概述

? ? ? ? 一般来讲,计算机视觉主要分为图像分类、目标检测、目标跟踪和图像分割四大基本任务。


? ? ? ? 图像分类是指为输入图像分配类别标签。自 2012 年采用深度卷 积网络方法设计的 AlexNet 夺得 ImageNet 竞赛冠军后,图像分类开 始全面采用深度卷积网络。2015 年,微软提出的 ResNet 采用残差思 想,将输入中的一部分数据不经过神经网络而直接进入到输出中,解 决了反向传播时的梯度弥散问题,从而使得网络深度达到 152 层,将 错误率降低到 3.57%,远低于 5.1%的人眼识别错误率,夺得了 ImageNet 大赛的冠军。2017 年提出的 DenseNet 采用密集连接的卷积 神经网络,降低了模型的大小,提高了计算效率,且具有非常好的抗 过拟合性能。


? ? ? ? 目标检测指用框标出物体的位置并给出物体的类别。2013 年加 州大学伯克利分校的 Ross B. Girshick 提出 RCNN 算法之后,基于卷 积神经网络的目标检测成为主流。之后的检测算法主要分为两类,一 是基于区域建议的目标检测算法,通过提取候选区域,对相应区域进 行以深度学*方法为主的分类,如 RCNN、Fast-RCNN、Faster-RCNN、 SPP-net 和 Mask R-CNN 等系列方法。二是基于回归的目标检测算法, 如 YOLO、SSD 和 DenseBox 等。


? ? ? ?目标跟踪指在视频中对某一物体进行连续标识。基于深度学*的 跟踪方法,初期是通过把神经网络学*到的特征直接应用到相关滤波 或 Struck 的跟踪框架中,从而得到更好的跟踪结果,但同时也带来了 计算量的增加。最*提出了端到端的跟踪框架,虽然与相关滤波等传 统方法相比在性能上还较慢,但是这种端到端输出可以与其他的任务一起训练,特别是和检测分类网络相结合,在实际应用中有着广泛的 前景。


? ? ? ? 图像分割指将图像细分为多个图像子区域。2015 年开始,以全 卷积神经网络(FCN)为代表的一系列基于卷积神经网络的语义分割 方法相继提出,不断提高图像语义分割精度,成为目前主流的图像语 义分割方法。


3.2.2计算机视觉技术应用领域广阔

? ? ? ? 在政策引导、技术创新、资本追逐以及消费需求的驱动下,基于 深度学*的计算机视觉应用不断落地成熟,并出现了三大热点应用方 向。


? ? ? 一是人脸识别抢先落地,开启“刷脸”新时代。


? ? ??二是视频结构化崭露头角,拥有广阔应用前景。视频结构化就是 将视频这种非结构化的数据中的目标贴上相对应的标签,变为可通过 某种条件进行搜索的结构化数据。视频结构化技术的目标是实现以机 器自动处理为主的视频信息处理和分析。从应用前景看,视频监控技 术所面临的巨大市场潜力为视频结构化描述提供了广阔的应用前景,很多行业需要实现机器自动处理和分析视频信息,提取实时监控视频 或监控录像中的视频信息,并存储于中心数据库中。用户通过结构化 视频合成回放,可以快捷的预览视频覆盖时间内的可疑事件和事件发 生时间。


? ? ? ??三是姿态识别让机器“察言观色”,带来全新人机交互体验。在 视觉人机交互方面,姿态识别实际上是人类形体语言交流的一种延伸。 它的主要方式是通过对成像设备中获取的人体图像进行检测、识别和 跟踪,并对人体行为进行理解和描述。从用户体验的角度来说,融合 姿态识别的人机交互能产品够大幅度提升人机交流的自然性,削弱人 们对鼠标和键盘的依赖,降低操控的复杂程度。从市场需求的角度来 说,姿态识别在计算机游戏、机器人控制和家用电器控制等方面具有 广阔的应用前景,市场空间十分可观。


3.3自然语言处理成为语言交互技术的核心

? ? ? ?自然语言处理(Natural Language Processing ,NLP)是研究计算 机处理人类语言的一门技术,是机器理解并解释人类写作与说话方式 的能力,也是人工智能最初发展的切入点和目前大家关注的焦点。


3.3.1?自然语言处理技术现状

? ? ? 自然语言处理主要步骤包括分词、词法分析、语法分析、语义分 析等。


? ? ? ?其中,分词是指将文章或句子按含义,以词组的形式分开,其 中英文因其语言格式天然进行了词汇分隔,而中文等语言则需要对词 组进行拆分。


? ? ? 词法分析是指对各类语言的词头、词根、词尾进行拆分, 各类语言中名词、动词、形容词、副词、介词进行分类,并对多种词义进行选择。


? ? ?语法分析是指通过语法树或其他算法,分析主语、谓语、 宾语、定语、状语、补语等句子元素。


? ? ?语义分析是指通过选择词的正 确含义,在正确句法的指导下,将句子的正确含义表达出来。


3.3.2 自然语言处理技术的应用方向

? ? ? ? 自然语言处理的应用方向主要有文本分类和聚类、信息检索和过 滤、信息抽取、问答系统、机器翻译等方向。


? ? ? ?文本分类和聚类 主要是将文本按照关键字词做出统计,建造一个索引库,这样当有关 键字词查询时,可以根据索引库快速地找到需要的内容。此方向是搜 索引擎的基础。


? ? ? 信息检索和过滤是网络瞬时检查的应用范畴,在大流 量的信息中寻找关键词,找到后对关键词做相应处理。


? ? ? 信息抽取是为 人们提供更有力的信息获取工具,直接从自然语言文本中抽取事实信 息。


? ? ? 机器翻译是当前最热门的应用方向,目前微软、谷歌的新技术是 翻译和记忆相结合,通过机器学*,将大量以往正确的翻译存储下来。 谷歌使用深度学*技术,显著提升了翻译的性能与质量。


第四章 问题和趋势展望
4.1、主要问题
4.1.1在算法层面,深度学*算法模型存在可靠性及不可解释性问题。

? ? ? ? ?首先是可靠性问题,深度学*模型离开训练使用的场景数据,其实际 效果就会降低。由于训练数据和实际应用数据存在区别,训练出的模 型被用于处理未学*过的数据时,表现就会降低。其次是不可解释性 问题,深度学*计算过程为黑盒操作,模型计算及调试的执行规则及 特征选取由机器自行操作,目前尚无完备理论能够对模型选取及模型本身做出合理解释,随着相关算法在实际生产生活中的融合应用,存 在产生不可控结果的隐患。


4.1.2在数据层面,主要存在流通不畅、数据质量良莠不齐和关键数据 集缺失等问题。

? ? ? ? 具体来看,一是数据流通不畅。目前人工智能数据集 主要集中在政府和大公司手里,受制于监管、商业门槛等问题,数据 无法有效流动;部分有价值数据,如监控、电话客服等数据目前没有 合法渠道获得;二是数据质量良莠不齐。数据标注主要通过外包形式, 劳动力水*决定了产出的标注数据质量。三是关键领域和学术数据集 不足。计算机视觉、自然语言处理等领域的数据资源严重不足,同时 目前我国产业数据主要供给给产业界,目前学术界数据集数量较少, 可能影响科研及前瞻性的技术研究。


4.1.3在软件框架层面,实现深度学*应用落地的推断软件框架质量参 差不齐,制约了业务开展。

? ? ? ? ? 由于深度学*应用场景众多,相关应用呈 现碎片化特点,用于实现最后应用落地的开源推断软件框架无论在功 能还是性能层面距离实际需求还存在相当距离,与训练软件框架趋同 趋势不同,产业界所使用的推断软件框架需要聚力研发,尚未形成具 有实际标准意义的优秀实例。


4.1.4在编译器层面,各硬件厂商的中间表示层之争成为技术和产业发 展的阻碍。

? ? ? ?目前业界并没有统一的中间表示层标准,并且模型底层表 示、存储及计算优化等方面尚未形成事实标准,导致各硬件厂商解决 方案存在一定差异,导致应用模型迁移不畅,提高了应用部署难度。


4.1.5?在 AI 计算芯片层面,云侧和终端侧对计算芯片提出了不同的要求。

? ? ? ?对于云侧芯片,随着深度学*计算需求的逐渐增加,业界希望在 提升云侧芯片运算效能的前提下,希望针对不同网络实现更优化的性 能表现,而功耗比则不是首要关注的因素;对于终端侧芯片,在功耗 为首要要求的情况下,更加注重的推断运算的性能,并且不同终端应 用场景对芯片提出了更多个性化需求,如在人脸识别摄像头、自动驾 驶汽车等场景。


4.2、趋势展望
4.2.1迁移学*的研究及应用将成为重要方向

? ? ? ? 迁移学*由于侧重对深 度学*中知识迁移、参数迁移等技术的研究,能够有效提升深度学* 模型复用性,同时对于深度学*模型解释也提供了一种方法,能够针 对深度学*算法模型可靠性及不可解释性问题提供理论工具。


4.2.2深度学*训练软件框架将逐渐趋同,开源推断软件框架将迎来发 展*鹌凇

? ? ? ? ?随着人工智能应用在生产生活中的不断深入融合,对于推 断软件框架功能及性能的需求将逐渐爆发,催生大量相关工具及开源 推断软件框架,降低人工智能应用部署门槛。


4.2.3中间表示层之争将愈演愈烈

? ? ? ?以计算模型为核心的深度学*应用, 由于跨软件框架体系开发及部署需要投入大量资源,因此模型底层表 示的统一将是业界的亟需,未来中间表示层将成为相*笠档闹氐恪


4.2.4AI 计算芯片朝云侧和终端侧方向发展

? ? ? ? 从云侧计算芯片来看, 目前 GPU 占据主导市场,以 TPU 为代表的 ASIC 只用在巨头的闭环 生态,未来 GPU、TPU 等计算芯片将成为支撑人工智能运算的主力 器件,既存在竞争又长期共存,一定程度可相互配合;FPGA 有望在数据中心中以 CPU+FPGA 形式作为有效补充。从终端侧计算芯片来 看,这类芯片将面向功耗、延时、算力、特定模型、使用场景等特定 需求,朝着不同发展。


4.2.5行业巨头以服务*台为核心打造生态链

? ? ? ? 对于国内外的云服务和 人工智能巨头,如亚马逊、微软,阿里云、腾讯云、科大讯飞、旷视 科技等企业,将围绕各自应用,与设备商、系统集成商、独立软件开 发商等联合,为政府,企业等垂直领域提供一站式服务,共同打造基 于服务*台的生态系统。


第五章、权威机构
5.1、国内
中国信通院

? ? ? ?中国信通院,是国内唯一的、专门用来发布信息通信类重大文件(往往是白皮书)的机构。经常发布5G、物联网、互联网、车联网等等白皮书。


http://www.caict.ac.cn/kxyj/qwfb/bps/index_1.htm


《人工智能发展白皮书-技术架构篇(2018年)》


《人工智能安全白皮书(2018)》


《2018世界人工智能产业发展蓝皮书》


《电信网络人工智能应用白皮书(2018 年)》


《?深度学*技术选型白皮书(2018 年)》


5.2、国外

xxxx


?


第六章 结论
1、迁移学*算法的研究及应用将成为重要方向
2、对于大公司,你可以做软件架构、中间标准、顶层芯片。
3、对于小公司,你可以做服务、做*台、做算法实现(模块)、做语音产品、人脸识别产品、做翻译、语音或图像信息分类等等。
4、个人、研究机构:做算法场景实现或改进。



友情链接: