金准产业研究 超级计算机行业专题研究报告

  • 3个月前发布
  • 发布人:行业研究

前言

近二三十年来中国在超算领域取得了长足的进步。超级计算机是各国竞相角逐的科技制高点,也是国家综合科技实力的体现。超级计算机主要用途包括模拟核试验、处理卫星图片、解密码等,应用领域已经覆盖了互联网大数据、工程计算、工业仿真、气象海洋、生命科学、石油物探等。由于很多情况不能实测,只能模拟,超级计算机在飞行器设计等领域更是起到至关重要的作用。

正因为超级计算机的重要性,美国对超级计算机的出口一直十分谨慎。上世纪80年代,中国石油工业部物探局重金购买了一台IBM大型机。美方要求机器要放在玻璃房子里,方便美方24小时监控,不得随便入内。监控日志要定期交美国审查,计算机启动密码和机房钥匙也要由美方控制。

“玻璃房子”事件给了我们深刻的教训,但正是在这样的刺激下政府加大了发展超算的决心,我国在超级计算机领域进步迅猛。1983年12月“银河”问世,成为了我国第一台算力在每秒1亿次以上的计算机;1993年曙光一号研制成功,实现了从向量型计算机向并行型计算机的突破;2009年10月,我国首台千万亿次超级计算机“天河一号”宣布研制成功,2010年升级以后的天河1A成为了全球最快的超级计算机;2013年6月,天河2号夺冠TOP500榜单,并持续6届占据榜首;2016年6月,使用我国自主芯片的神威·太湖之光刷新超算算力榜单,作为全球第一台运行速度超过10亿亿次/秒的超级计算机,接过了天河2号手中的桂冠。按照国际常规,20年超级计算机计算速度提高100万倍,而我们提高了5000多万倍。

一、美国实体清单再次指向中国超算领域

2019年6月TOP500颁布后,美国紧接着于6月21日将5家中国实体列入了出口管制实体清单,涉及到中科曙光、海光、海光旗下两家公司(成都海光集成电路、成都海光微电子)及江南计算技术研究所。此次被列入实体清单的中国企业,主要业务都与超级计算机有关。

然而这不是美国第一次向超算领域开展出口管制。早在2015年4月9日,美国商务部决定禁止向中国4家机构(国家超级计算长沙中心、国家超级计算广州中心、国家超级计算天津中心和国防科技大学)出售intel的至强处理器和至强Phi加速器。而当时天河2号已经连续4次登顶TOP500榜首,并计划使用Intel芯片进行系统升级,将计算力从55PFlop/s升级到100PFlop/s,因而美国在当时对天河2号的研制单位和天河系统落地数据中心发出了禁令。

图片1.png

2019年的禁运的原因金准产业研究团队认为可以概括为几个方面:(1)在最新的TOP500排名中,中国入榜超算数量继续呈现绝对领先优势;(2)中国3大机构的E级原型机已经问世,有望在2020年完成E级超算的研发,再次超越美国;(3)中国本次推出的E级超算原型机中芯片已经实现全面国产化;(4)曙光获得的AMD的Zen架构授权并已经实现量产,同时其先进的全浸没液冷技术也极可能用于正在研发的E级超算中;(5)中美贸易摩擦的背景下,美国对中国在科技领域的领先和超越的趋势越发敏感,意图全方面阻碍这一进程。

图片2.png

2015年的美国禁令全面推动了中国超算的国产化进程。2016年神威太湖之光采用自主研发的SW26010众核芯片登顶TOP500;2017年天河2号使用国产的Matrix-2000加速卡替换Intel至强Phi完成了升级;2018年天河3号E级超算原型机问世,从CPU(飞腾),到加速器芯片(Matrix2000plus),到互联接口芯片、路由芯片全都采用国产货,新型的计算处理、高速互连、并行存储、服务处理、监控诊断、基础架构等硬件分系统全都是国产原创设计,系统操作、并行开发、应用支撑和综合管理等软件分系统全面国产可控。因为失去了中国市场,intel至强Phi加速器在2017年8月停产退市。

乐观看待2019年的出口管制。此次禁令出台后,金准产业研究团队预计对于全面推行自主体系的江南计算技术研究所不会有实质性影响。但考虑到海光、中科曙光和AMD的关系的特殊性,以及Intel芯片在超算商业化领域的绝对优势,中短期对曙光及海光的影响仍有较大的不确定性。但长期来看,中国在超算领域技术能力和投入的决心已经一次次获得了历史的验证,本次出口管制必然会进一步促进我国超算国产化向商业化应用领域的进一步蔓延。

二、运算速度:中国有望在2020年重回世界之巅

2.1年中超算TOP500公布,继续呈现中美竞争格局

2019年6月17日,第53届全球超算TOP500名单在于德国法兰克福举办的“国际超算大会”(ISC)上发布。自1993年起,每半年全球高性能计算领域会召开一次盛会——6月国际超算大会(ISC)和11月的全球超算大会(SC),期间会发布超算TOP500榜单、戈登·贝尔奖、Green500等奖项,是全球超算领域的焦点。

全球最快的超级计算机仍然被美国占据。部署在美国能源部旗下橡树岭国家实验室的Summit及利弗莫尔实验室的Sierra占据榜单前两位,中国的“神威·太湖之光”和“天河二号A”位列第三、第四。从超算芯片角度来看,Summit和Sierra都使用的是IBMPOWER9系列,神威·太湖之光使用的是我国自主的申威CPU,而天河二号A仍然采用的是Intel至强系列。

图片3.png 

从今年的获奖数量情况来看,中国进一步夯实了相对美国的领先地位。在算力前500名单中,中国占219台,美国占116台。自2017年底,中国超越美国以后,目前在TOP500榜单中占比数量约达到美国两倍,领先优势明显。

图片4.png 

从计算力的角度来看,美国仍然遥居榜首。在TOP500的榜单中,美国占据38.4%的计算性能,中国占据29.9%的份额,仍较美国有较大差距。但是这一短暂的优势有望随着2020年中国E级超算的问世而发生逆转。

图片5.png 

2.2中国超算厂商占据了TOP500榜单6成以上市场份额

2018年我国超算TOP100榜单来看,联想和曙光分别占40台,并列第一,之后分别是浪潮12台、国防科大4台、华为2台、国家并行机工程中心2台,已经完成全面的国产化。

图片6.png 

金准产业研究团队分析,在全球前500的超算当中,中国厂商已经占据了数量上的绝对优势。三大服务器品牌联想、浪潮、曙光分别贡献了173台、71台、63台,总计307台,远超中国219台的市场占比,出口份额进一步增大,占据了全球6成以上的市场份额。

图片7.png 

通过TOP500厂商性能和数量的对比,我们可以看出厂商市场定位状况。其中IBM以12台服务器占据了13.3%的总体性能,而三大国产厂商中单台性能从高到低分别为联想、曙光、浪潮,都低于TOP500的平均水平。

图片8.png 

2.3中美日将开启在E级超算的角逐,中国有望率先研制成功

作为国家“十三五”高性能计算的专项课题,中科曙光、国防科大和江南计算技术研究所同时获批进行了E级超算的原型机系统研制项目。2016年至2018年是中国E级超算规划中的第一步——原型机研发。原型系统是主要验证核心关键技术的可行性,包括CPU、互连通信、存储架构、能效比等,并不追求峰值。这一阶段完成后,三家的E级超算将进行PK,通过“赛马机制”确定其中两家并制造出两台真正的E级超算。

截止2018年10月,3家机构的E级原型机都已经完成交付,同时在2018年中国高性能计算机TOP100排行榜中位列前十。同时3大E级原型机使用的都是国产处理器,已经在国产化方面取得了长足的进步。

金准产业研究团队预计,中国有望在2020年研发完成首台E级超算,重回TOP500榜首。从全球E级超算的研发计划来看,中国计划在2020年推出首台E级超算;美国也公布了多个采用不同架构的E级超算计划,希望于2021年交付首台E级超算;日本基于超算“京”研发的E级超算“后京”原本计划在2020年部署,之后相关项目人称部署可能会延迟1-2年;欧盟则预计在2021-2022年交付首台E级超算。

三、国产化:已完成国产芯片突破,但芯片性能和生态差距仍然明显

3.1大国产化超算的芯片路线

在超算芯片的国产化方面,我国近年来如雨后春笋,呈现多点开花的格局,主要可以分为4大厂商阵营:

申威(江南计算技术研究所)

为了解决超算和国防的芯片自主化问题,总参谋部第五十六研究所(无锡江南计算技术研究所)于2003年开始着手设计高性能芯片。其推出的申威处理器源于DEC的Alpha21164(属于RISC指令集),得到了国家“核高基”的专项资金支持,成为了我国具有完全自主知识产权的处理器系列。

申威处理器是我国超算领域国产化攻坚战最重要的力量。2012年神威·蓝光问世,使用了8704片申威1600,首次实现了超算CPU和操作系统的全部国产化。2016年使用40960

片申威26010处理器神威·太湖之光成为了全球第一台运行速度超过10亿亿次/秒的超级计算机,再次证明了我国自主芯片的研发能力。2018年,神威E级原型机问世,其使用的申威26010+处理器也被曝光。

图片9.png 

飞腾(国防科大)与申威的路线不同,国防科技大学的飞腾先后尝试了X86、Epic(VLIW)、SPARC、ARM四个指令集。在Sun将UltraSPARCT2开源后,国防科大对其进行了仿制和改良,走上了独立自主的技术路线。研发出的FT-1000和FT-1500分别应用在了天河1A和天河2中作为计算节点前端芯片,FT-1500的性能和工艺当时在国内已经领先。

而后由于自主芯片在产业化实践中面临了重重困难,2011年飞腾决定放弃生态羸弱的SPARC架构,转而走向了ARM阵营,并于2012年得到了ARM指令集授权。2014年10月,飞腾第一款ARM架构的CPU,FT-1500A面世,再一次站到了国产CPU的巅峰。2015年飞腾团队设计出了“火星”,成为世界上第一款基于ARM架构的64核CPU,2016年得到样片水平相当于2014年Intel服务器芯片水平,获得了业界广泛关注。2017年,优化升级后的FT-2000+问世,大幅降低了整机构建成本。而国防科技大研发的E级超算天河三号也将使用飞腾FT2000+或者后续型号CPU进行国产替代。

2017年底Matrix-2000DSP用于天河2A升级方案,替换了被美国政府禁售的Intel PHI加速器,在性能提升到100P的同时,功耗几乎没有增加。2018年升级后的Matrix-2000+又成为了天河三号E级原型机的加速器。

 

图片10.png 

禅定(海光)

中科曙光国产化路线中使用的是X86架构AMD的Zen内核处理器。2016年4月,AMD宣布将与中科曙光旗下的天津海光成立合资公司,授权其生产服务器处理器。AMD获得了2.93亿美元的授权费,同时中方获得了其2017年才发布的Zen架构授权,对中方来说是以白菜价获得了最先进的X86架构。2018年海光Dhyana(禅定)X86处理器开始量产,主要用来配套中科曙光的服务器,或是国产性能最强的芯片。2019年AMD宣布不会再与海光公司签订新的授权协议,与后者的合作仅限于第一代Zen架构授权,而后海光和中科曙光被列入美国实体清单,后续中科曙光能否进行自主设计和进行芯片的更新尚存在很大的不确定性。l

鲲鹏(华为)

国产服务器第四只力量来自华为,采用的也是ARM架构。2019年1月7日,华为推出了鲲鹏920,最多64核心,支持8通道DDR4内存及PCIe4.0协议,最高频率3.0Hz,7nm工艺,是同时期最强的ARM服务器芯片。同时值得注意的是鲲鹏920采用的是ARM架构授权,比华为麒麟系列手机芯片的内核授权方式有了更大的自主权,同时因为华为获得了ARMv8的永久授权,所以不会受到美国相关禁令的影响。考虑到华为在芯片、服务器和云服务领域的全产业链布局,长期来看华为鲲鹏的发展也值得期待。

除了以上4大的芯片阵营,中科院旗下的龙芯、寒武纪,阿里平头哥旗下的玄铁也是我国服务器芯片国产化的重要力量。

3.2在英特尔、英伟达垄断格局下,国产化亟待进行生态上的突破

英特尔的CPU芯片和英伟达的GPU仍然占据绝对领先优势。英特尔的CPU在最新TOP500榜单中仍然占据主导地位,该公司的芯片出现在95.6%的超算系统之中。另有7台超算系统选择了IBMPower系列处理器、3台系统选择了AMD处理器。另外,全球超算TOP500名单上共有133个系统采用了加速器或协处理器技术,其中125个使用了英伟达GPU。由于GPU的浮点性能远高于CPU,基于CPU+GPU的异构运算架构成了Green500中高能效服务器的热门架构。在前25台Green500超算中,有22台使用了英伟达GPU加速卡。Top500中排名前两位的Summit、Sierra也都是选用了IBMPower处理器+英伟达GPU的架构。

对比中国在超算运算速度的水平,国产超算芯片与美国的差距仍然明显。金准产业研究团队分析,国内半导体国内处理器制造工艺整体落后1-2代,处理器的单核性能和主频较低。随着摩尔定律的逐渐失效,全球半导体产业面临发展瓶颈,同时也给像中国这样的芯片领域的后来者提供了更多赶超机会。随着中芯国际14nm制程量产,12nm工艺也取得突破,也将助力国产芯片的发展进程。

我国商用超算目前仍然以采购国外芯片、系统和应用软件为主,亟待生态上的突破。在拥有了国产芯片和单点技术突破之后,生态仍然是中国超算自主化进程中最大的短板。包括软件生态、开发工具的完备,从底层到上层完整的教育传承和人才积累,都是需要多年沉淀进行积累的,这也成为了后来者打破原有竞争格局最大的障碍。正是意识到生态的重要性,2019年7月华为正式宣布将在未来5年内投资30亿元来发展鲲鹏产业生态,飞腾放弃生态羸弱的SPARC架构转投向ARM阵营,海光选择了主流的X86架构路线。国内几大超算芯片设计厂商,根据自身商业化程度的不同,在自主可控和芯片生态之间进行不同的权衡和取舍,呈现出了多元化的格局。

随着中美贸易摩擦的持续推进,进一步坚定了华为、阿里等企业发展自主芯片的决心。华为通过推出自有鲲鹏芯片、泰山ARM服务器、云服务的模式,可以快速实现芯片的应用,加快换代升级的步伐,有望复制麒麟芯片的成功路径。而阿里通过自身系统的建设,最先在国内完成了去IOE的进程,也成为国产化推进的鲜活案例。因而,金准产业研究团队认为巨头在向芯片领域的渗透后,或将成为我国核心领域变道超车的核心力量。

四、应用:人工智能应用或将带来新机遇

4.1近年来,中国超算在应用方面也取得了重要突破

近年来中国的超算应用水平也取得了重大突破,软实力也位居世界前列。设立于1987年的“戈登·贝尔奖”被誉为超算领域的诺贝尔奖,是国际超算应用领域的最高学术奖项,通常会在当年TOP500排名前列的超算应用中获得,成立以来一直被美国和日本垄断,直到2016年中国凭借神威·太湖之光上运行的“全球大气非静力云分辨模拟”,首次获得戈登·贝尔奖。

在超算的硬件之外,我国在超算的应用软件研制水平和应用水平也得到了显著提升。而后在2017年,运行在神威·太湖之光上的“15-Pflops非线性地震模拟实现10Hz场景描述”再次获得了戈登·贝尔奖。同时,神威·太湖之光自问世以后,以其为载体的应用已经先后6次入围了戈登·贝尔奖的提名,2次获奖。

图片11.png 

金准产业研究团队分析,未来,随着我国对基础科研重视程度的逐步提升,高校、科研院所、军工企业等传统客户对超算需求还有很大的提升空间。当前美国普通高校科研院所约有30%的工作与超算相关,而国内高校的平均水平不到10%,还有大量的超算应用亟待发掘。

4.2人工智能时代,超算正焕发新活力

未来人工智能(AI)有望成为超算的主流应用之一。超级计算机的传统应用主要集中在气象预测、石油勘探、CAE仿真、新材料研究、新药发现、基因测序等工程计算和科学计算领域,主要采用了封闭式的计算场景。而近年来,高速成长的AI市场对计算力的需求逐步凸显,而超算强大的计算性能正好契合AI的需要。当前10亿亿次的算力已经很好地满足了传统科学计算领域的需求,而随着E级超算的问世,超算与云计算、大数据、人工智能等新兴应用领域的结合有望推升出更大的数据处理的需求。

传统超算要满足人工智能的计算需求,还需要在架构和算法上进行一系列升级。从精准医疗到自动驾驶,随着AI的应用不断深入,包括Intel、浪潮在内的一系列超算领域的厂商都将AI与HPC的融合作为产品发展的一个重要的研究方向。2018年全球最强大、最智能的人工智能超算Summit问世,2018年8月问世的神威E级超算原型机也首次在国产超级计算机上构建了人工智能软件生态链,这标志着超算与人工智能技术结合成为大势所趋。

2018年的戈登·贝尔奖的入围情况来看,入围应用中人工智能相关的项目占据了半壁江山,其中“利用高可扩展深度学习方法理解极端天气事件”更是获得了当年的可扩展性与时效奖,这表明人工智能与超算结合已经愈来愈紧密。

图片12.png 

五、能耗:E级超算在功耗上仍然面临巨大的挑战

随着各国相继展开E级超算的研发,超算在运算速度在不断提高,但仍然面临功耗墙、编程墙、可靠性墙和访存墙等应用难题,其中功耗上的挑战更是首当其冲。2020年全国数据中心总耗电量预计将达到2962亿千瓦,对比2018年城乡居民用电总量9685亿千瓦这个数据来看,数据中心持续增长的用电问题已经不容小觑。

从数据中心的节能路径来看主要有两条路线:(1)降低超算等IT设备的功耗;(2)降低数据中心的PUE值(数据中心总设备能耗/IT设备能耗)。

5.1 E级超算的设备能耗问题仍然亟待解决

从顶级超算的Green500排名来看,我国与美国在超算功耗还有比较大的差距。在公布TOP500之外,超算大会为了表彰在节能方面做出突出贡献的公司,还将TOP500的超算重新排名,按照能耗比公布了Green500榜单。作为TOP500排名第一的超算,Summit在Green500也排名第二,能效比高达14.719;而神威·太湖之光能效比仅为6.051,还有很大的提升空间。

然而,即使是以Summit的功耗比,距离目前业界提出的E级超算30兆瓦的目标还有很大的差距,还需要在半导体工艺上做进一步的突破。

5.2曙光的液冷技术在降低PUE值方面取得了较大突破

从降低PUE值的角度来看,最重要的问题是找到合适的散热方式,降低数据中心冷却的功耗。有数据显示数据中心的冷却占机房总功耗的40%左右,我国传统数据中心的PUE值在2-3之间。为了降低PUE值,大量数据中心选择建在水资源丰富、气候凉爽的偏远地区,但是对于大部分的企业来说,这样远离客户、远离主干网络、失去运维便捷性的解决方案,仍然存在种种弊端,并不是最可靠、可行的。

传统的风冷制冷手段正在逐渐被液冷技术取代。液冷技术主要分为冷板式液冷和全浸没式液冷两种,冷板式液冷目前已经得到了较多的商业应用(神威·太湖之光也采用了冷板式冷却系统),而全浸没式液冷才是液冷技术发展的终极目标。

在液冷技术领域,中科曙光走在了行业前列。2015年,曙光率推出了国内首款标准化量产的冷板式液冷服务器,并在当年完成了国内首个冷板液冷服务器大规模应用项目;2017年曙光又交付了国内首套商用全浸没液冷服务器,并在2019年完成了国内首个浸没式液冷服务器大规模应用项目。2018年11月的美国SC2018超算大会上,曙光预发布了硅立方高性能计算机,2019年6月的ISC2019大会上,曙光又展示了新一代硅立方超级计算机,PUE值小于1.04,单机柜功率进入160KW时代,大幅提升了超算的计算密度。同时,曙光推出的E级超算原型机也采用的是全浸没式液冷技术,为E级超算能耗难题的解决提供了新的解决思路。

结语

超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。超级计算机常用于需要大量运算的工作,譬如天气预测、气候研究、运算化学、分子模型、物理模拟、密码分析等等。目前中、美、日、俄等国对高性能超级计算机研究大力投入的背后,也是抢占科研制高点的竞赛。


您可能感兴趣
行走在山地上游客应注意些什么?

  走在山地上,游客很容易迷失方向,为了避免迷路,节省体力,提高穿行速度,应本着有道路不穿林翻山,不走小路走大道。如实在...

为什么阿里华为美国接连碰壁?

进入2018年,接连两个消息占据了财经投资圈的头条。一个是,马云耗时一年,前后三次提交申请,斥资83亿收购美国大型汇款公司Mone...

这4种食物是胃黏膜的“修复器”,常吃不用担心胃癌!

胃痛,太常见了,大家最常用的疗法叫做“忍”,因为在我们看来,胃痛忍一忍就过去了,而且大多数人都会有胃痛,所以常常我们都见怪...

饭后3不急、早起3不要、睡前3不宜!点滴小改变,受用...

人生在世,吃睡二字。这两个字作为人一生最基本的追求,可不能被小看。毕竟这吃不好、睡不好,一两天也没什么关系。日积月累下来...

金准数据logo
Copyright@2016-2019 focus123.cn
版权所有 金准数据 | 京ICP备16021591号
qr

扫码下载APP