我的位置:

金准人工智能 AI与算力分析报告

发布人:管理员

前言

人工智能是一门计算机技术,主要让计算机去替代人来完成部分工作。如今主流的技术主要是指使用深度学习等算法来实现替代人工,完成大量简单重复性劳动。

虽然人工智能概念的提出已有将近60年了,但之前的发展速度一直偏慢,主要原因是无论方法如何进步,实际使用效果依旧差强人意。从2015年起,人工智能迎来了真正的大爆发,这在很大程度上与GPU的广泛应用有关。

人工智能的高速发展将为各个产业带来翻天覆地的变化。目前很多商业领域已经采用人工智能,尤其在谷歌、百度这样的公司,在它们的搜索、推荐、广告等领域都已使用了类似机器学习的技术。

自2012年以来,AI训练任务所运用的算力每3.43个月就会翻倍,这一数字大大超越了芯片产业长期存在的摩尔定律(每18-24个月芯片的性能会翻一倍)。自2012年以来,AI算力增长了超过 300,000 倍(而如果是以摩尔定律的速度,只应有12倍的增长)。

硬件算力的提升一直是AI快速发展的重要因素。因此,金准人工智能专家表示,如果我们希望目前的发展趋势持续下去,我们就需要为研发远超当前算力的全新系统做好准备。

一、为何要从算力角度来看AI的发展?

推动AI发展的动力有三个:算法、数据、算力。算法是否有创新发展难以量化跟踪,而数据的巨大体量也难以计算,但算力是可以量化的,这为我们探究AI的发展进程提供了机会。

1.人工智能高速发展的基础是算法、数据和硬件算力

算法、数据和硬件算力组成了人工智能高速发展的三要素。人工智能的实现所需要具备的基础,第一个是优秀的人工智能算法,比如现在最流行的深度学习算法,就是近期人工智能领域中最大的突破之一,为人工智能的商业化带来了希望;第二个是被收集的大量数据,数据是驱动人工智能取得更好的识别率和精准度的核心因素;第三个是大量高性能硬件组成的计算能力,以前的硬件算力并不能满足人工智能的需求,当GPU和人工智能结合后,人工智能才迎来了真正的高速发展。从目前情况看,以上三要素缺一不可。

为什么人工智能近两年才开始爆发?主要是因为直到今日,人工智能的算法、数据和硬件才满足了人工智能的基本需求。算法方面,以人脸识别为例,在2013年深度学习应用到人脸识别之前,各种方法的识别成功率只有不到93%,低于人眼的识别率,因此不具备商业价值。而随着算法的更新,深度学习使得人脸识别的成功率提升到了97%,这才为人脸识别的应用奠定了商业化基础。第二,在数据方面,进入互联网时代后,出现了大数据的高速发展与积累,这为人工智能的训练学习过程奠定了良好的基础。比如,在AlphaGo的学习过程中,核心数据来自互联网的3000万例棋谱,而这些数据的积累是历经了十多年互联网行业的发展。所以直到今年,基于深度学习算法的AlphaGo才取得突破性进展。离开了这些棋谱数据的积累,机器战胜人是无法实现的。第三点是硬件的算力。在二十年前,一个机器人,当时是用32个CPU,达到120MHz的速度。现在的人工智能系统使用的是成百上千个GPU来提升计算能力,这使得处理学习或者智能的能力得到比较大地增强。之前用CPU一个月才能出结果,然后再去调整参数,一年只能调整12次,也就是有12次迭代。GPU产生后,大幅提升了计算量,现在用GPU可以一天就出结果,这样可以迭代得更快,这是技术大幅发展的条件。

2.大数据迎来爆发式增长 现有算力无法匹配

互联网时代下的大数据高速积累,现有计算能力无法匹配。全球的数据总量正以飞快的速度增长,根据IDC的数字宇宙报告,全球所有信息数据中的90%产生于近几年,数据总量正在以指数形式增长。从2003年的5EB,到2013年的4.4ZB,并将于2020年达到44ZB。也就是说,2020年每个人可以均摊到5200GB以上的数据量。而且到2020年,将近40%的信息都可能会被云提供商“触摸到”;约三分之一的数据,即超过13000EB的数据将具有大数据价值。基于现有的计算能力,在如此庞大的数据面前,人工智能的训练学习过程将变得无比漫长,甚至完全无法实现最基本的人工智能,因为数据量已经超出了内存和处理器的承载上限,这将极大限制人工智能的发展和应用。

3.摩尔定律趋于极限 经典计算瓶颈需要被打破

摩尔定律趋于失效,经典计算机的计算能力到达瓶颈。对于目前的经典计算机,处理器的计算性能已渐渐远离摩尔定律,因为CPU中晶体管的数量无法实现每两年翻一番的预期。主要原因是现有芯片设计工艺已达到10纳米,预计2020年到达2纳米。这个级别上的晶体管只能容纳10个原子,电子的行为将不再服从传统的半导体理论,此时晶体管将变得不再可靠。

 

摩尔定律到达瓶颈后,提升算力的方式只能靠增加芯片数量。目前,面对单个芯片的算力瓶颈,人们普遍的做法是做加法,即增加计算集群中芯片的总数量,来提升运算处理能力。比如:要计算1+1和2+2两个任务,对于单个芯片而言,就需要消耗两单位的计算时间,逐个完成这两个任务。而同时使用两个芯片的话,经过一定程序上的优化,可以实现在一个单位的计算时间内,完成这两项计算任务。

金准人工智能专家认为,虽然使用大量的算力暴露出了当前AI算法不够高效的问题,但是,重要的技术突破依然必须在足够的算力基础上才能实现。所以,从算力的角度来审视AI的发展是合理的。

在算力的分析中,金准人工智能专家认为起决定作用的数字并不是单个CPU的速度,也不是数据中心的最大容量,而是用于训练单个模型所需的算力——这一数值最有可能代表当前最佳算法的强大程度。

以模型计的算力需求与总算力有很大不同,因为并行计算的限制(硬件和算法上)使得模型不可能太大,训练的效率也不会太高。

金准人工智能专家发现,目前,算力发展的趋势是每年大约增加10倍。这种增长的实现,部分是因为有更为专业的硬件(如GPU和TPU)使得芯片每秒能够执行更多操作,但主要还是因为有研究人员们不断寻找更好的并行计算方法,并花费大量资金才实现的。

二、如何计量算力?

AI深度学习模型需要耗费大量时间和算力,若有足够的信息,就可以估计出已知训练结果的总算力需求。

这份分析报告中,我们使用petaflop/s-day(pfs-day)作为算力的计量单位。一个单位的petaflop/s-day(pfs-day)代表在一天时间内每秒执行10^15 次,总计约为10^20次神经网络操作(operations)。这种计量方法类似于电能的千瓦时。

我们不测量硬件FLOPS数的理论峰值,而是尝试估计执行的实际操作数量。我们将任何加法或乘法计为单个操作,而不考虑数值精度,同时忽略集成模型。

通过金准人工智能专家的计算,目前每次算力翻倍的时间为3.43个月。

三、算力发展的时期特征

以下两张图表展示了最为人熟知的几个AI机器学习模型以petaflop/s-days计的计算总量,即其所需的算力。

 

几个最为人熟知的AI机器学习模型以petaflop/s-days计的计算总量,即其所需的算力

从图表中我们可以发现AI算力发展分为4个时期。

2012年之前:使用GPU进行机器学习还不常见,因此,在这个时期,图中显示的最小算力都难以达到。

2012年-2014年:使用很多个GPU进行模型训练的基础架构还不常见,这个时期多使用1-8个速度为1-2TFLOPS的GPU进行训练,可达到0.001-0.1 pfs-days的算力水平。

2014年-2016年:普遍使用10-100个速度为5-10 TFLOPS的GPU进行大规模的模型训练,可达到0.001-0.1 pfs-days的算力水平。这个时期的数据说明,减少数据并行化的返回值带来的收益会递减,这意味着更大规模的模型训练带来的价值是有限的。

2016年-2017年:出现可以实现更大规模算法并行化的方法(如较大的批量规模、架构搜索和专家迭代)以及使用专用硬件(如TPU和更快速的网络连接),极大地突破了算力的限制,尤其是对某些模型来说。

AlphaGo Zero和AlphaZero是大家熟悉的大型算法并行化例子,而很多其他同等规模的应用现在在算法层面上也是可行的,而且也可能已经投入了应用。

四、量子计算:人工智能的革命性算力

量子计算机有望提供更强的计算能力。量子计算机提供了另一条增强计算能力的思路,它的并行计算的特性,使得它可以一次同时处理多个任务,有望实现计算能力上的超越。

1.量子计算的算力呈指数级增长

量子计算的核心优势是可以实现高速并行计算。在计算机科学中,无论经典计算还是量子计算,他们的计算功能的实现都可以分解为简单的逻辑门运算。简单来讲,每一次逻辑门的运算都要消耗一个单位时间来完成。经典计算机的运算模式通常是一步一步进行的,它的每一个数字都是单独存储的,而且是逐个运算。所以对于4个数字进行同一个操作时,要消耗4单位时间。而在量子计算中,一个2个量子比特的存储器可以同时存储4个数字,这里一个量子态可以代表所有存储的数字。科学家通过特定设计对量子态进行一次变换,即可对4个数字同时操作,而且只消耗1单位时间。这种变换相当于经典计算的逻辑门,实现了对存储器中的数字并行运算,这被称为量子并行计算。可以看到,当量子比特数量越大时,这种运算速度的优势将越明显,它可以达到经典计算机不可比拟的运算速度和信息处理功能。

对于量子计算机,在半导体材料和超导材料等领域,科学家也已经积累了数十年的理论与经验。现在最有希望的量子计算机方案之一就是低温超导系统,它涉及了半导体材料与超导材料的应用,主要是基于硅晶体,掺杂一定量的超导材料,实现量子计算。而现有的技术积累将极大促进该方案的发展与快速突破,用更短的时间实现大规模的商业化应用。

值得注意的是,量子计算机的量子比特数量以指数增长的形式快速上升,从2003年起的1位量子比特,到2013年512位量子比特的计算机,再到2015年实现1000位量子比特。目前,非通用型量子计算机已经实现了1000位量子比特,在特定算法上,计算效率比经典计算机要快一亿倍。

2.量子计算机的全球商业化进程加速

量子计算机经过近40年时间的理论研究阶段,在2007年首次实现硬件方面的商业化。目前发展迅速的是非通用型量子计算机,而通用型量子计算机还处于起步阶段。我们认为,通用型量子计算机和非通用型量子计算机最终将在市场上共存,并共同向经典计算机的市场份额发起挑战。

“十三五”规划期间,量子计算机被我国列为重点研究方向之一,国内已有不少科研团队关注量子计算领域,他们的主要关注点在于量子算法和量子计算机的实现上。另有一些研究团队关注在高温新型超导材料等基础研究领域,这些基础研究的突破也能大力促进量子计算产业的高速发展。2016年8月,我国量子计算机研究取得突破性进展,中国科技大学量子实验室宣布成功研发了半导体量子芯片。

3.量子人工智能算法相比经典算法节省大量时间

经典计算机的计算核心使用的是中央处理器,是一种基于半导体理论设计的电子芯片,用于串行运算。而在量子计算机中,它的计算核心是量子芯片,通过量子的叠加性带来了并行运算的能力,替代传统的电子芯片。可以看到,量子计算机与经典计算机的物理实现完全不同,如果在量子计算机中使用经典算法的话,那么量子芯片将和普通电子芯片发挥基本相同的功能,只能实现串行计算。这是由于设计经典算法时,其设计思想是基于串行运算而得到的,这是经典算法自身的局限性。为此,需要设计相应的量子人工智能算法,才能实现量子计算的超强算力,这种专门面向量子计算设计的人工智能算法被称为量子人工智能算法。

4.量子计算提升人工智能效率拓展应用场景

在很多应用领域,人工智能需要拥有快速处理数据、快速响应的能力。比如智能驾驶等应用场景,对于人工智能的反应速度要求很高。再比如手机上的人工智能系统,对于数据的处理能力要求非常高,在这些应用场景中,急需人工智能的硬件系统实现可移动化和快速响应能力。

随着人工智能对硬件计算能力的需求不断提升,人工智能从单机或者小型服务器模式,逐步转型为云计算模式。目前,随着人工智能应用的发展,单机或者小型服务器模式的劣势逐渐显现。一方面,这种模式可提供的算力到达了一个瓶颈阶段,已无法满足人工智能对算力的需求;另一方面,这种模式是一次性采购的,对于用户的资金压力较大,并且后期维护成本不低,需要自己搭建相应的软件环境。现阶段一种主要的解决方案是将人工智能应用或者服务放在云端,运用云计算平台提供更加优质廉价的人工智能服务,其主要的优点是可以按照实际需求来购买计算能力,随时满足现阶段的应用需求。另外,付费模式相对弹性,按照使用状况来逐次结算费用,减轻资金压力。

在摩尔定律近乎失效的情况下,基于现有的计算能力,在如此庞大的数据面前,人工智能的训练学习过程将变得无比漫长,甚至完全无法实现最基本的功能。而量子计算机的量子比特数量以指数形式增长,也就是每两年翻一番。又因为量子计算的特点,其计算能力是量子比特数量的指数级,这个增长速度将远远大于数据量的增长,为数据爆发时代的人工智能带来了强大的硬件基础。

从服务器到云计算,人工智能的应用场景得到了极大的拓展,我们认为量子计算也将拓展人工智能的应用场景。我们认为,人工智能的发展存在三个阶段:服务器时代、云计算时代、量子计算时代。其中量子计算时代为人工智能带来的颠覆,除了在计算能力方面,更重要的是极大地增加了应用场景。

5.量子计算可实现人工智能的小型化

现在的人工智能系统使用的是成百上千个GPU来提升计算能力,这使得处理学习或者智能的能力得到比较大地增强,然而这套系统也需要庞大的硬件机柜和相配套的硬件机房。较大型的人工智能硬件系统需要将近半个足球场的占地空间,这无疑是对人工智能发展的一个重要限制。随着大数据时代的不断进步,数据将呈现指数级增长,而基于CPU或者GPU云计算的数据中心将无法满足数据爆发的需求。

目前非通用型量子计算机已经实现了1000位量子比特,在特定算法上,计算效率比经典计算机要快一亿倍。也就是如果想要实现人工智能,原来需要一千台计算机,或者需要一万台计算机的规模,现在只要用一台量子计算机就可以了。而且这个量子计算机的计算能力完全能够满足人工智能对速度的要求,也就是人工智能将不再依赖于大型服务器集群,或者庞大的云计算中心。

6.量子计算可高速处理大数据 实现人工智能移动化

目前量子计算较为成功的应用集中在大数据快速搜索,这主要是因为在这个应用领域中,诞生了优秀的量子计算算法,使得经典计算体系中无解或者趋近无解的问题,在量子计算的环境中,转化为了可解并且能快速求解的状态,使得这个领域成为目前量子计算的重要应用方向。

量子芯片的大数据处理能力将实现人工智能的移动化,主要的应用场景包括:车载智能系统、无人机的智能系统或者手机上的人工智能系统。主要可行的方案有两种:第一是它们实时收集的大量信息和传感器数据,之后传输给云端的量子计算系统,在云端实现超短时间内的快速运算,然后再将结果反馈给相应移动端,实现对移动端的控制。这种方案的优势在于可以极大节省计算的时间,提高智能系统的响应速度。另一种方案是通过自身携带的量子计算系统,可以在本地处理大量的数据,并且得到实时响应,指导汽车自动驾驶或者对手机终端反馈信息。这个系统的优势是不只节省了计算时间,还完全省去了上传和下传数据的时间。但是这种方案的不确定性在于量子芯片能否在日常环境中直接使用,比如不再要求超低温的环境等。总之,这些应用场景对于数据处理能力的要求非常高,而量子计算通过节省大量的计算时间,实现可移动化的人工智能系统,提供数据的快速响应能力。

总结

金准人工智能专家认为,人类的算力需求每3.43个月就会翻倍,每年大约增加10倍,这样的发展趋势将会继续。

很多创业公司都在开发AI专用的芯片,一些企业声称他们将在接下来一两年大幅提高芯片的算力。这样一来,人们就可以仅仅通过重新配置硬件,以更少的经济成本得到强大的算力。而在并行性方面,很多近期出现的新算法在原则上也可以结合,例如,架构搜索和大规模并行SGD。

另一方面,并行化算法的发展会被经济成本限制,而芯片效率的发展将会被物理上的局限所限制。金准人工智能专家认为,虽然如今最大规模的AI模型训练使用的硬件,仅单个硬件就要花费百万美元的采购成本(尽管摊销下来,成本已经低了很多)。但今天的神经网络计算的主体部分仍然在于推理阶段,而不是模型训练阶段,这意味着企业可以重新改装或采购更多的芯片用于模型训练。

因此,如果有足够的经济基础,我们甚至可以看到更多的大规模并行训练,从而使这一趋势持续数年。全世界的总体硬件预算是每年1万亿美元,可以看到,经济成本对并行化算法的发展限制仍然远未达到。

金准人工智能专家认为,对于这种趋势将持续多久,以及持续下去会发生什么,用过去的趋势来预测是不足够的。

但是,即使算力增长的潜力目前处于我们可以掌控的范围,也必须从今天就为研发远超当前算力的全新系统做好准备,并开始警觉AI的安全问题和恶意使用问题。

这种远见对于负责任的政策制定和负责任的技术发展都至关重要,我们必须走在这些趋势前面,而不是对这些趋势置之不理。