摘要:在2022年阿里云峰会上,阿里云正式发布了CIPU(Cloud infrastructure Processing Units)。这是一套阿里云历时7年所打造的云数据中心专用处理器,未来将替代CPU成为云计算的管控和加速中心。「CIPU」虽...
在2022年阿里云峰会上,阿里云正式发布了CIPU(Cloud infrastructure Processing Units)。这是一套阿里云历时7年所打造的云数据中心专用处理器,未来将替代CPU成为云计算的管控和加速中心。
「CIPU」虽然是个新名词,但「云计算管控加速处理器」却是近年间云计算产业大火的概念。
随着云计算技术的不断普及,产业诞生了越来越多超大规模的云计算服务器阵列,如何将这遍布全球的百万计算节点调度统一,成为了困扰云厂商的一大难题。
与此同时,近年大火的人工智能、自动驾驶等技术,更是催生了低延迟、高算力的数据密集型应用爆发式增长,传统的云计算发展路径越来越难以满足需求。
CIPU应运而生。
「云计算管控加速处理器」是目前云计算产业最火的技术之一。
三年前,英伟达就曾超70亿美元收购以色列芯片制造商Mellanox,以BlueField系列产品切入这一赛道;英特尔、Marvell、博通等厂商也纷纷发力,不断推出DPU、IPU等相关产品。
与此同时,创业赛道也是风起云涌。仅就国内而言,芯启源、大禹智芯、中科驭数、星云智联、云豹智能等DPU创业公司也在近年间纷纷斩获融资、发布新品,市场好不热闹。
作为云计算服务的提供者,也是芯片的最大用户之一,阿里云则在更早之前就在察觉到了这一技术的重要性。
在过去十多年的发展中,云计算技术先是完成了以分布式和虚拟化技术对大型机的替代,又以资源池化技术突破了规模和稳定性的瓶颈,为用户提供了超大规模的云计算服务。
不过,虚拟化与资源池化的技术遇上以CPU为中心的数据中心架构,又带来了新的问题。
举个例子,虚拟化能够将计算资源进行重新定义与划分,极大提高了信息资源的利用率,但与此同时,这项技术也会带来难以忽视的性能损耗。
为了解决服务器长久以来的虚拟化性能损耗的问题,阿里云的相关研发团队从2015年就开始技术攻关,并于2017年推出业内首款虚拟化损耗为零的神龙云服务器。
此后,经过多年自研迭代,阿里云又对神龙、弹性RDMA等核心技术不断深入整合,并逐渐演进出以「CIPU」为中心的全新架构形态。
在这个全新体系架构下,CIPU向上接入飞天云操作系统,向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速。
从部分功能上看,CIPU与英伟达、英特尔等产业巨头近年来陆续推出的DPU、IPU芯片新品相近。
不过,供应商的产品难以针对每一朵云进行深度定制,其产品更多还是以「协助」为主。
与它们不同的是,阿里云的CIPU在虚拟化、网络、分布式存储、本地存储、安全、运维、池化等多个方面,与阿里飞天云操作系统进行了深度融合,通过“软件定义、硬件加速”,不仅能够协助计算资源调度,更能够「管控」全局,将百万台服务器,变成一台「超级计算机」,全面放大技术优势。
“CIPU是云计算发展的一个必然。”阿里云技术产品负责人蒋江伟在采访中这样说道。
对于用户来说,CIPU的优势可以体现为:
1、性能更强
这是最直观的一项参数。蒋江伟表示,在CIPU的加持之下,原来需要3.5台服务器的计算资源才能完成的计算任务,如今只需要2.5台。
2、计算效率更高
通过CIPU对于计算资源的调度、协同、管控,让同样数量的计算资源发挥出更高的计算效率。
举个例子,一直以来,RDMA都是一个比较「贵族化」的技术,性能强大,但是技术门槛很高。想要用好它,对工程师、代码、硬件投入都提出了非常高的要求。
基于CIPU,阿里云推出了eRDMA(弹性RDMA)技术,通过它,阿里云能够将RDMA技术快速普惠化,让用户能够在云上大规模应用高性能网络加速服务,用同样的计算资源与人力投入,获得别人投入几百甚至上千人的研发效果。
3、系统更稳定
作为百万台服务器的「管控中心」,CIPU上还沉淀了大量的控制、调度数据,让阿里云能够根据这些数据提前预测单个节点产生故障的可能性,提前排查,保障数据中心的安全稳定运行。
基于CIPU和飞天的新一代云计算架构体系,阿里云在这次的2022年阿里云峰会上,又刷新了自己的数据记录。
CIPU加持之下,阿里云在通用分布式计算领域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;在大数据和AI等计算与数据双密集场景下,相比传统的TCP网络,弹性RDMA高性能网络的吞吐能力提升30%以上。
CIPU与存储、网络的结合,则能够使阿里云云盘存储IOPS最高可达300万,长尾时延降低50%,网络时延最低达到5us,“访问云端比访问本地硬盘更快“。
“新一代云计算体系不仅会对云、对数据中心内部产生影响。这也会改变传统计算机终端形态、以及软件应用和开发界面。”阿里云智能总裁张建锋说。
改变以硬件为主导的传统IT体系,建立以云为主导的新体系,是每一个云厂商的技术理想。
而在数据密集型计算需求爆发式增长的当下,这一理想不仅仅停留在技术愿景与发展方向,而是成为了实实在在的迫切需求。
一方面,以AI为代表的新兴计算场景所需算力爆增。
根据OpenAI数据,自2012年以来,AI训练任务所需要的计算力每3.43个月就会翻一倍,六年以来累计暴涨超过30万倍,远远超过了摩尔定律的极限。以CPU为中心的传统IT体系已经无法满足日益增长的算力需求。
另一方面,随着自动驾驶、虚拟人等对低延迟、高带宽需求敏感的应用场景增多,用户对于云服务的速度、效率、稳定性都提出了更为极致的要求。
以特斯拉为例,其百万级的汽车保有量每日行进在路面上,其采集、分析、存储的数据量接近天文数字,无法全部靠终端进行处理。可汽车又是一款需要配备极高安全冗余的特殊终端,一旦需要接入云端服务,现有的IT体系几乎无法满足其需求。
此外,随着云计算应用的快速普及,越来越多应用场景开始从「南北向流量」演进为「东西向流量」,数据中心内部传输的数据量激增,大规模数据的传输与搬迁成为了限制云计算发展的又一难题。
以阿里云为例。阿里云在全球布置了上百万台服务器,属于超大规模的云计算阵列。倘若仅靠以CPU为中心的传统IT体系,几乎无法对这上百万台服务器进行计算、存储、网络资源进行统一的管理、调度、编排,让资源能够合理、高效利用。
CPU成为数据高速传输的瓶颈,云计算体系迫切地需要重构,需要新架构、新设计、新方案。全球顶级的IT巨头,都在寻找解决办法。
而在阿里云关于建立「新一代云计算体系」的答卷中,CIPU是关键一环。
在阿里云的这套新一代云计算体系中,话语权从「服务器里的CPU」移至「服务器外的CIPU」,CIPU相当于一个统领全局的云控制器,将集成、调度功能从不堪重负的CPU中抽离出来,承担着协调控制大量需要跨网络进行计算、存储、数据交互的过程。
有了这样一个更高层级的控制器,阿里云就能够突破超大规模资源池化的调度瓶颈,让陷入百万节点调度「泥潭」的数据中心能够轻装简行,更快、更敏捷、更灵活。
得到减负的CPU,则可以继续发挥其核心算力提供者的地位,成为阿里云「一云多芯」体系的重要组成部分。
CIPU虽然是阿里云新系统的关键一环,不过阿里云对新一代云计算体系的布局,却并非是从CIPU才开始的。
早在去年,阿里云就宣布了其「一云多芯」的核心战略——以飞天操作系统为核心,全面向下兼容x86、ARM、RISC-V等多种芯片架构,以及飞腾、鲲鹏、AMD、Ampere等多种CPU,并将其封装成直接面向用户的标准算力,既解决了CPU不兼容导致的云和软件开发问题,又让更多种类的芯片进入云计算生态。
作为这套战略的一部分,阿里云还在去年推出了自研CPU「倚天710」,这是一款集成了600亿颗晶体管的5nm数据中心CPU,采用ARMv9架构,主频最高达到3.2GHz。这款CPU不仅为阿里云量身定制,更是阿里云「一云多芯」战略的延伸,加深了阿里云对底层硬件产业链更为深入、全面的理解。
目前,倚天710已在阿里云数据中心内部规模化部署,并顺利完成了2021年「双11」等多个核心业务。今年4月,基于倚天710的公共云 ECS实例也已上线邀测。
如今,阿里云「CIPU」的推出,则又更进一步地与一云多芯战略呼应,更进一步将以CPU为中心的传统云计算体系推向下一个时代,掀开了阿里云新体系的一角,从云效率最大化出发,重构数据中心,构建一个软硬一体的「新一代云计算体系」。
当前,海外IT巨头如AWS、谷歌、微软都在争夺下一代云计算标准的定义权,英特尔、英伟达等芯片巨头也都纷纷将业务发展重心瞄准了数据中心,阿里云此时携CIPU入局,云计算的战场无疑将变得更加有趣。
但这绝不是一场一劳永逸的战斗——这是一场长征,一场技术长征。
自「云计算」这一概念诞生以来,围绕着云计算技术标准定义权的争夺就从未停歇,几十年间,多少玩家浮浮沉沉。因为选错了技术路径、贻误了入场时机、放缓了前进脚步,导致最终总是落后市场半拍,跟着别人的研究亦步亦趋的故事,在IT产业里有很多。
举个例子,早在1965年——互联网诞生之前——IBM就开始研发虚拟机技术,并在此后推出了人类历史上第一个虚拟机系统CP-40/CMS。
然而,IBM高层错误地判断了云计算的市场发展,导致公司作为底层技术的先发者,却并未吃到云计算的第一口红利,而是在亚马逊2002年切入AWS的五年之后,才终于推出Blue Cloud计划,贻误了最好的战机。
国内云计算产业的发展也经历了类似的战局。
2007年,阿里率先入主云计算产业,启动飞天云操作系统的自研,开始不声不响地推行「去IOE」化。
阿里的新动作,行业并不是不知道,可互联网泡沫的教训仍旧历历在目,国内IT产业对此仍然存疑。在三年后那场知名的2010中国(深圳)IT领袖峰会上,两位技术出身的CEO——李彦宏与马化腾分别将云计算称为「新瓶装旧酒」与「可能要过几百年、一千年后才能实现」。
唯一一个非技术出身的CEO马云的观点则是「可能是因为不懂技术的缘故……我最怕就是老酒装新瓶的东西,你看不清他在玩什么,突然爆发出来最可怕。」
此后的十年间,阿里云以惊人的速度腾飞爆炸,带领了整个中国云计算产业迈向了一个新台阶。「飞天」成为我国唯一一个自研云操作系统,并陆续向下生长出芯片、服务器、操作系统、数据库、AI平台等以云为基础的软硬件技术体系。
在每一个新时代的清晨,选择正确的路径,拥有先发的优势,将意味着企业拥有对行业未来发展路径的定义权——这是每一个技术厂商的理想。
“这几年,我们看到云计算进入了一个新的发展阶段,我们越来越接近于下一个时代。”在2022年阿里云峰会上,阿里CTO张建锋这样说。
下一代的云——全新的架构定义,全新的软件界面,全新的硬件加速。
路径的选择源于对技术的深入理解,技术的理解源于扎实的基础研究。
阿里云今年最重要的策略是「B2B」——Back to Basic,回到云计算的本质,做深基础研究,坚持在技术的长征路上不断取得新的突破。
阿里云张建锋:BACK TO BASIC 定义下一代的云
在这场新一代云计算路线之争上,阿里云打响了第一枪。
“我们错过了PC时代,但云这个时代大家起步是一样的。现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地。”张建锋说。