阿里造“神龙”

本文涉及的产品
云服务器 ECS,每月免费额度280元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 人类对于计算的梦想,像一条河。涓涓细流,奔腾入海。 计算的载体,从楼船一般的大型机,到快艇似的小型机,到如今万吨巨轮的云计算,我们的武器如史诗般演化,但背后却有同一个技术的身影,那就是“虚拟化”。

image

浅友们大家好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你特别想听到谁的故事,不妨加微信(微信号:shizhongmini)告诉我。

阿里造“神龙”
文 | 史中

人类对于计算的梦想,像一条河。涓涓细流,奔腾入海。

计算的载体,从楼船一般的大型机,到快艇似的小型机,到如今万吨巨轮的云计算,我们的武器如史诗般演化,但背后却有同一个技术的身影,那就是“虚拟化”。

简单理解,虚拟化技术就像变形金刚,把无数台计算机“组合”成一台超级计算机,或者把一台整计算机“切割”成无数小计算机。

1962 年诞生的人类第一台超级计算机 Atlas,就用了名为 Supervisor 的虚拟化组件来管理物理主机资源。如今最先进的生产力——云计算,底层的重要技术也是“虚拟化”。

按照正常的故事剧情发展下去,未来云计算会成为人类应用的底座,就像我们熟悉的水电一样。但是,事情并不那么简单。

云计算带有一道“伤痕”——经过虚拟化技术提供的计算力是“打折”的。

世界因此徘徊不前:

上汽集团曾希望用云计算来解决汽车仿真的大算力场景需求,但实测结果让公司大跌眼镜,虚拟化性能损失高达60%,最终不得不忍痛放弃计划。

类似的例子比比皆是,而且越是密集计算的场景,虚拟化带来的损耗问题越明显,无数企业因此被挡在云计算的大门之外,眼看着新时代的浪潮奔流走远。

这个巨大的伤痕,成为了云计算“房间里的大象”,人人都能看到它,却没人有能力除掉它。以至于到后来, 芯片厂商、虚拟化厂商、云厂商,整个产业链对此讳莫如深,从来没有人捅破这层窗户纸。

今天的故事,就从这里开始。

image

(一)


2016年底,阿里巴巴几十位技术“长老”围坐在会议室里。

这是每年一度阿里巴巴的丰收仪式——“双11”复盘会。这一年,双11当天成交额创下了1682亿的纪录,淘宝天猫的后台像一部硕大而精密的数字机器,没有一个零件掉链子。阿里云费了九牛二虎之力,将虚拟化性能损耗降到了当时业界的最低值,大家脸上自然洋溢着轻松和笑意。

轮到行癫发言。

所有人都把目光投向他。在大家心里,这个阿里巴巴集团首席技术官(CTO)有两个特色:“善于拿捏理想和现实的技术信徒”+“爱曝金句的耿直 Boy”。

image

行癫

行癫的套路是这样的:

每年双11,他一边波澜不惊,一边启发大家构想出一些宏大的技术方向,足够整个阿里巴巴集团接下来奋斗一整年,今年也不例外。

我们要定义哪些是核心问题,然后根本性地解决它。比如,虚拟化损耗问题就是之一。我们的目标很简单,必须想办法把损耗降到“0”。

行癫对满屋子人说。

会议室里的这些技术宅听完差点一口老血喷出来。阿里巴巴过去二十年虽然逆天,但我们已经膨胀到想要挑战几十年来的行业潜规则了么??

故事讲到这里,需要先按一下暂停键。中哥强势插入给你科普一下:云计算的性能损耗究竟是怎么来的?

你肯定熟悉你自己的电脑。如果你把你家的计算机想象成一块蛋糕。那么,云计算就是一块“双层蛋糕”。双层蛋糕的下面一层是无数台和你家电脑一样的物理机,上面一层是无数虚拟机。

image

你去购买云计算,买的可不是下面的物理机,而是上面的虚拟机。

这样对你来说其实更舒爽:

比如你今天需要一台阿里云的4核8G的服务器,明天需要一台8核16G的服务器,不用重新攒电脑,只要轻轻点一个按键,你的虚拟机就自动变大了。至于下面的物理机怎么调度,那不是你的事儿,是阿里云的事儿。

而把物理机变成虚拟机的这个技术,就是“虚拟化”

好,重点来了:“虚拟化”的舒爽不是白白得来的,它的代价就是性能损耗

举个例子:假设你是厂长,工厂流水线上有104个工人,你一个人管不过来104人,他们经常上班摸鱼。于是你从中选出8个小组长,每个小组长管12名工人。这样一来,生产秩序加强了,但是有8个本来能干活的人做了管理工作——原来绝对生产力是104分,现在只剩下96分了。

在这个例子里,我们就说“虚拟化的性能损耗大概是8%”。

image

同样,在2017年,云计算的性能损耗也差不多在这个量级。粗略地说:104个CPU放在一起,要有8个CPU做“管理”,剩下96个才是干活的。你算算,这个损耗也是8%。

用初中物理知识想想也知道,虚拟化性能损耗这件事儿,是天经地义的。最多只能无限降低,不能消失。

好,科普完毕,我们回到双11复盘会上。

行癫提的目标很美好,让CPU全部用于真正的计算。如果成功把虚拟化损耗降下来,绝对是云计算历史上的大功一件,那些企业上云最后的顾虑也将烟消云散。但这个技术难度,似乎不亚于证明“哥德巴赫猜想”。。。

围坐的人里,有一个人心里“咯噔”一下——因为这是他的职责范围。

此人名叫旭卿,阿里云弹性计算的技术负责人,听到行癫“点将”,按捺不住内心的激动。因为这也是他团队一直想做的事情,只是如何实现,还拿捏不准。

image

旭卿

当然,过去几年,世界主流的云计算玩家都在试图通过各种“补丁方案”降低资源损耗,阿里云也没闲着。

2015年,阿里云的底层虚拟化技术架构被更换掉(从 Xen 到 KVM),虚拟化的开销从极端场景的超过一半,降低到了平均10%的水平。

2016年,阿里云越来越稳定,用户也开始迅速超过百万。但在当时的虚拟化架构路线上,这10%的“硬核开销”基本上属于奥特曼消灭不了的小怪兽。

那次会议结束后,阿里云副总裁李津就拉着旭卿团队促膝长谈,他们追踪到了一个行业真相:

过去芯片商、硬件商、虚拟化软件厂商等几乎所有的角色一如既往地扮演好自己的角色,按照各自的进化逻辑和速度演进,他们之间的配合就成了“三不管地带”——虚拟化损耗被视作必然。

在计算力规模较小的时候这不会被当做是个大问题,然而放在数百万台规模的云计算时代,这个损耗才异常可观。

李津和旭卿一致认为,事到如今,再研究“补丁方案”肯定没戏,必须在计算体系结构上做创新:

以往的解决路线都是让虚拟化软件去迁就CPU的特性,好比是让管理学符合流水线工人,明摆着强扭的瓜不甜。

而阿里云的新计划则是让“上帝的归上帝,凯撒的归凯撒”:新造出一个带有智能芯片的专用板卡负责虚拟化调度,从而把那些CPU解救出来。

也就是说不从原来的工人里选拔小组长,而是阿里巴巴自己研制一个“专业组长”,直接空降管理104个工人,这样104个工人不就都可以全力干活了么?

image

大概就像酱

看完方案之后,大家眼珠一转,技术构想很NB,没意见。但问题有两个:

第一、做芯片,做板卡,这可都是门槛极高的硬件设计。。。

第二、举头望去,就连世界公认的云计算领头羊,亚马逊 AWS,也没听说有这么激进的“硬件计划”。

看这意思,整套事情玩下来,难度不亚于两万五千里长征,未来一年团队可要生死未卜咯。

(二)


平心而论,这是一条很激进的路线。

这相当于要首次实现云、虚拟化和芯片的技术大融合。旭卿掰着手指头数,要想召唤神龙,至少需要四颗龙珠:

龙珠一、虚拟化软件开发;

龙珠二、软硬件衔接的中间层;

龙珠三、核心芯片设计;

龙珠四、硬件(板卡、服务器)设计。

虚拟化软件开发就是团队的原班人马,胜任这次技术改革不在话下。当时的虚拟化技术负责人叫子团,他是个玩赛车的技术宅,对新技术总是保持着赛车般激情,子团听后异常兴奋,主动请缨带着团队开干。

而硬件、芯片方面,阿里也做过一些技术积累,曾经自研了闪存 AliFlash、全闪存存储服务器泰山、光模块、以及大容量存储服务器貔貅、液冷服务器、自研数据中心等等。

只不过,现在还必须要有一支专门为这一项目服务的技术团队。

image

阿里的液冷服务器集群

软硬件中间层,旭卿脑海里冒出一个人选,此人花名行宪,当时供职于某著名外国芯片公司北京分公司。

那天下午,旭卿电话突然响起,一个好朋友告诉他一个惊天秘密——行宪所在的部门要被那家外企整体裁撤。。。

旭卿两只眼睛喷出了火,就直接打车去机场。从首都机场再打车到西二旗时,已经夜里十点多了。旭卿给行宪打电话,明天早晨找你谈谈。

第二天早晨咖啡馆刚开门,行宪就到了。没想到旭卿更早,已经在门口蹲了半天。。。

行宪顺利加盟。

“当时我就知道,这事儿成了一半儿!”旭卿回忆。

行宪外向又暖男的性格,加上精湛的技术,使得他团队的兄弟们一直很信任他。结果,听说他加盟了阿里云,兄弟们纷纷给他打电话,想继续跟着他做研究。

确认过眼神,行宪张开怀抱,加上兄弟团队的人马,这部分研发阵容妥妥齐备。

image

行宪

现在龙珠只剩下最后一颗——芯片研发的负责人。说实话,中国好的芯片人才屈指可数,短时间要找到合适的人选堪比登天。。。

但眼看还有一个多月就要过春节了,旭卿下令,硬着头皮先开始干!行宪团队算是半个芯片团队,先兼职芯片设计,如果有些功能不会用芯片搞定,就只能“绕个路”,用软件替代。

团队第一次跑通验证程序,已经是来年早春三月了。

那天是个周六,大伙都堆在项目室,谁都不想休息,因为验证结果马上就要出来了。

然而,最终在屏幕上跑出的数据给大伙儿泼了一盆冷水——“延迟”指标远高于预期。

仔细分析之后,大家基本定位出了原因:有些坑绕是绕不过去的。这颗芯片是造也得造,不造也得造。

当务之急是找到一位芯片大牛。

那两天,行宪魂不守舍,第二天周日本来他要开车去燕郊参加同学聚会,结果满脑子都在想这事儿,连着开错了两个高速口。他怕出事故,只好把车停在路边让自己冷静一下。

就在这时,收到一条老友的信息,听说行宪在找芯片人才,给他推荐了一个厉害的人选,渐名。

旭卿得知自己苦苦寻找的芯片人才终于要有着落,像当年“追”行宪一样,又开始三顾茅庐对渐名发起爱的攻击,终于感动了渐名。

image

渐名

和行宪外向的性格形成鲜明反差,渐名是个技术宅,不看广告看疗效的那种。

多说一句,这里渐名做的芯片不是从头自研一款芯片,而是用的行业内比较成熟的“可编程芯片”,在现成的芯片上设计逻辑。由于时间和能力所限,这算是个最客观的妥协方案。(当然,这也成为了另一个故事的序章,我们后面还会说。)

行宪记得很清楚,渐名是带着行军床进办公室的。两个月时间,他就没回家几次。那天他找到行宪,淡淡地说了句:“芯片这边设计得差不多了,你再测测。”

大家围拢过来,看到各项测试结果都“超常发挥”。大伙儿轮番抱着显示器上的参数合影留念,看起来就像一群傻子。

image

此时旭卿手里已经基本集齐了龙珠,接下来只待召唤“神龙”。

大家开了个会,讨论新研制的这套服务器到底要叫个什么名字。有一位工程师说:“既然是召唤神龙,那我们就叫“神龙云服务器”如何!”

同学们一听,纷纷露出“哎呦不错哦”的表情,能飞天的不就是“神龙”嘛!

接下来的几个月里,产品经理霁荣在各研发团队奔走呼号,跟进团队内部和外部所有相关大牛们的研究进度,保证大家在承诺的时间里完成各自的技术准备。

(三)

就在行宪他们死去活来折腾核心技术的时候,旭卿一刻都没闲着。他心心念念惦记着做硬件设计的兄弟团队。
2017年初,旭卿和硬件团队的芳志一起去台湾出差。

大巴车里,旭卿往芳志旁边一坐,开始了唐僧般的念叨,从盘古开天地,到神龙服务器,说了个遍。

很多人还不知道,为什么阿里巴巴会有一个硬件设计团队,这里多聊几句八卦。

从2014年开始,阿里云就遇到一个重大的问题:买来的标准服务器,“七国八制”,总是出现各种“幺蛾子”,今天这里不稳定,明天那里不适配。每天芳志的团队都四处灭火,生无可恋。

从那时开始,阿里巴巴就走上了定制服务器的道路。功能规格、接口标准都由自己规定好,服务器厂商按照这个规格研发生产,问题就少多了。

到了2016年,阿里巴巴更进一步,已经开始完全自己设计服务器。CPU和内存选型、存储、主板设计、电源、甚至散热元件都在设计图里清晰地设计好,服务器厂商只管去生产交付就好了。

所以,有关服务器底层硬件设计,经过这么多年锤炼,服务器研发团队是门儿清的。

image

阿里巴巴的定制服务器

初一听到旭卿的构想,芳志的反应和其他同事差不多。“总感觉有点离经叛道,但又觉得值得试一试。。。”他后来回忆。

于是,芯片设计和软件架构基本确定下来后,服务器硬件团队马上开始和他们一起做关键器件选型。

渐名的芯片方案验证差不多后,接下来芳志团队就要开始设计搭载这块芯片的板卡了。大家给这块卡起了个名字,叫“MOC卡”。

大家想象了一下 “MOC卡”的样子,应该看上去有点像一个显卡。

但是真到具体设计的时候,童鞋们开始头大了。

“说实话,好歹我在这个行业里也摸爬滚打十五年了,这是我见过最复杂的板卡,没有之一。”芳志说。

image

芳志

由于复杂度太高,在写电路设计的时候,哪怕只有一根线路设计出现错误,都会导致板卡点不亮。这种情况一旦发生,只能推倒重来,返厂大吉。

返厂不仅会造成巨大的成本浪费,还会直接让2017年云栖大会发布神龙云服务器的梦想泡汤。

就在设计图交给工厂之前,团队的童鞋通宵一周,你给我检查,我给你检查,一个点一个点看,一个电路一个电路查。送走设计图的时候,就像老父亲目送进京赶考的儿子一般。。。

2017年夏天,第一版MOC卡实物终于从工厂运了过来。

image

MOC卡

硬件的同学们摩挲着自己的作品,沉甸甸地,像块砖头,爱不释手。他们忐忑地把板卡插进机箱。。。。“点亮啦!”屋子里一片沸腾。在如此高压高强度的工作状态下,如此复杂的电路设计没有出现一处错误,这群阿里人用事实证明了自己在硬件领域的专业性。

MOC卡的照片通过钉钉群传输到北京,所有人一片欢呼。

为了测试板卡工程结构上的可靠性,他们把MOC卡泡在装满红墨水的容器里,捞出来晾干,然后直接用钳子把芯片一个个拽下来,查看里面是否曾有液体渗入,结果非常满意,里面完全没有墨水痕迹,说明芯片引脚的焊接也是天衣无缝。

到8月中旬整个产品软硬件全部验证完成,但留给中国队的时间不多了。带有MOC卡的神龙云服务器火速放量生产,像蚂蚁搬家一样进入阿里云的“蛋糕底层”,成为无数台物理机的一部分。

2017年10月12日。云栖大会。

李津在没有任何高能预警的情况下,在台上突然发布“神龙云服务器”,并且宣布神龙是“现货”——从当天开始,客户就可以购买神龙云服务器做为硬件底层的阿里云计算资源。

image

云栖大会上

李津发布神龙云服务器

业界爆燃。

当天下午,在只能容纳100人的神龙的技术论坛上,生生挤进去了300人。后来保安人肉堵住门口,才算作罢。

更神奇的事情发生了。

就在那次云栖大会之后的一个月,大洋彼岸的云计算全球老大亚马逊 AWS,在他们的“云栖大会” ——Reinvent 大会上同样发布了类似的硬件虚拟化技术。他们的虚拟化架构叫做 Nitro。

image

AWS 发布 Nitro

听到这个消息,旭卿全明白了,原来 AWS 也早就秘密开始研究和神龙一样的技术,不同的是 AWS 的芯片来自他们2015年初收购的以色列芯片初创公司 Annapurna Labs。两家公司出于最高级别的保密,相互一点风声都没走漏。

大洋两岸的两家公司通过这种方式隔空致意,英雄相惜。这像是云计算的一场“生物大进化”,云计算朝着“IT行业的水电煤”又迈进了一步。

“那一刻我终于知道,我们不再孤单了。”旭卿感慨。

旭卿的慨叹,其实每一个阿里云人都感同身受。

亚马逊是世界上第一家云计算巨头,用“开创了云计算时代”来形容它丝毫不过分。中哥曾在另一篇文章《阿里云的这群疯子》里详细写过阿里云的创业故事。2009年王坚带领阿里云的兄弟们筚路蓝缕地长征,很大程度上也是将亚马逊AWS视作自己的镜像。

那时候,阿里云虽然艰难,但前路终归有一盏灯。而开发神龙的时候,研发团队是两眼一抹黑的。所以,当他终于知道阿里云的创新和AWS居然是同一个方向,而这一次阿里云居然还领先AWS一个月时,心中的骄傲如火山喷涌。

神龙天降,马上投入战斗。

image

截止2019年10月,世界各大厂商自研软硬件一体架构的进度。

(四)

购买神龙云服务器的网页快被挤爆了。

第一时间购买神龙的客户大概分三类:

1、好奇的用户——他们来尝鲜;

2、云计算的同行——他们来看看阿里云有没有吹牛;

3、传统企业——他们早就迫不及待地想上云,但之前传统的云计算架构并不适合他们,神龙架构却是他们的菜。

之前提到的上汽是第一个吃螃蟹的人。他们透露,相比过去使用传统超算服务,使用神龙超算集群汽车仿真计算效率提升25%;吉利集团也将全部仿真业务在神龙超级计算集群,过去平均排队2个月的任务,现在平均2周搞定。

为什么用传统云架构不行,换成了神龙云架构就行了呢?

这里中哥多解释一句。

很多传统企业,例如制造业,从90年代就采用了物理机架构,那时候还没有云计算,所以他们自己构建了一套虚拟化架构(很可能选用的是VMware)。

现在传统企业要向上云,就面临两难了:

1、把这套虚拟化架构原封不动地装在云计算本身的虚拟化架构里,就会出现“嵌套虚拟化”的问题,大概就像《盗梦空间》里描述的那样,在一个梦境里又做了一个梦,这样会让虚拟化性能开销飙升,跑起来比拖拉机还慢,完全不能忍。。。

2、就算企业为了上云,下决心重新构建一套适应云计算架构的软件,又会发现上下游供应商他们用的体系还是传统架构,又出现了猪队友接口不兼容的问题。。。

image

这就叫嵌套虚拟化

由于神龙云服务器自身的虚拟化动作都被“藏”到了MOC卡里,对于传统企业来说,神龙机和物理机没区别。所以把原来的系统原封搬上来,既不会造成性能损失,又不用面临和上下游接口不符的问题。

image

神龙云服务器上

MOC卡已经把

虚拟化的活儿给干了

云的好处全都有了,过去的不方便又全没了,世界上还有这样的好事儿。很多传统企业纷纷开始大量选购阿里云。

为此,2018年,行癫将阿里巴巴集团唯一一个企业端产品创新突破奖颁给了神龙。

image

但在阿里云眼中,此时的神龙还未强大到能支撑起所有计算需求。这是为啥呢?

之前我们提到,虚拟化其实分成两个方向:

一个方向是虚拟化组合:把一堆物理机粘成一个大的虚拟机;

一个方向是虚拟化切分:把一个物理机切成一堆小的虚拟机。

刚才为了不打扰你听故事,中哥没有说得很细:作为第一代产品,神龙云服务器用MOC卡实现的硬件虚拟化,其实只能满足第一个方向。

每一个神龙云服务器,就像一块乐高积木,很多乐高积木拼起来组成更大的积木,这没问题,但一个乐高积木本身没办法再切分。

image

神龙架构的虚拟化组合,大概就是这个样子。

结论很明确:第一代神龙架构其实是缺一条腿的——它只能支撑一半的云计算场景。

如果神龙架构不仅能做到虚拟化组合,还能够做到虚拟化切分,那么它就可以替换掉阿里云现有的所有服务器,实现全部升级了。

这就是神龙2.0的任务。

当时的神龙,已经不是当初一个小团队“自娱自乐”了,它是要支撑阿里云很多业务的。但凡拖延,后果不堪设想。说白了,这次技术升级是干也得干,不干也得干。

神龙2.0交付日期临近,团队手忙脚乱,人手严重不足。

这时,有一个人能紧急调动所有人的资源,那就是阿里云智能基础产品事业部总经理小邪。实际上,在神龙研发早期,小邪就对这个技术寄予厚望。

小邪在阿里巴巴的技术体系里“摸爬滚打”十年,他曾参与集团首次大规模技术改造项目——“五彩石战役”,非常清楚神龙对阿里云乃至整个行业的价值。如果说五彩石打通的是淘宝、天猫的架构和数据,那么神龙统一的则是阿里云的底层基础设施。

image

小邪

神龙不只是颠覆计算服务这么简单,它还会推动云平台上存储、网络、数据库等等基础技术的跃进!

小邪在飞天2.0启动会上如是说。

那段时间,小邪在各团队奔走呼号,在他的感召下,无数兄弟部门加入战斗序列,为新一代神龙贡献力量。

正如那句话,如果你知道要去哪里,全世界都会为你让路。

2018年8月份,阿里云终于如约把新一代神龙架构的这套代码完成了——虚拟化层被做薄,损耗率被大幅降低。

image

第二代神龙架构

大概是这样

这下旭卿“手里有粮,心中不慌”了——凡是能用传统云计算架构实现的,神龙架构都能实现!而这也意味着,云服务器首次实现了整颗CPU用于计算任务,在算力资源紧缺的时代,这一突破极具意义。

在第二代产品成型后,神龙这帮人就奔走呼号,邀请阿里巴巴内部的各个业务团队“吃狗粮”——不仅要多用阿里云,还要认准神龙云服务器作为底层的阿里云。

阿里巴巴内部使用神龙云服务器的云计算,和外部客户买阿里云的流程是一样的,特别简单,只要在网页上点几下,就相当于过去采购了几千台机器搬到机房。

时间来到2018年双11,投入战斗的神龙云服务器已经初具规模,团队再次严阵以待。

虽然对自己的技术有信心,但这毕竟是神龙第一次抵御这么大的流量洪峰,大家心里还是很紧张。

所有人都围在“作战室”,盯着神龙的后台数据。结果,神龙云服务器的CPU占用率非常平稳,几乎是一根直线,像假的一样。据估算,2018年双11当天,大部分云部分峰值流量都是神龙云服务器扛下来的。

image

不仅如此,在有些业务中,用神龙的虚拟化架构,比直接用物理机还快。虽然这看起来不科学,但其实也在团队的意料之中。

因为阿里云的很多业务是跑在时下正流行的“容器”中,而容器技术有个显著特点:它本身是基于云架构设计的。

所以,本来容器技术跑在云架构里就比物理机里更如鱼得水,加上神龙机本身的计算性能和物理机一样快,整体的性能就超越了物理机。

这一仗打得漂亮。

image

(五)

2019年春节回来,行癫又组织技术长老们开了一次重磅会议。

这次会上,他又提出了一个非常激进的计划——“从此刻开始,全集团不再购进一台物理机,所有新增计算力全部上阿里云”。

就在2019年4月。集团又发布了一条新的决定:

集团上云,全部采用神龙云服务器架构。

从2009年创业,到现在已经10年,阿里云服务了上百万家客户,但多数企业出于尝鲜的目的——把验证性的工作放在云上,生产任务仍旧在自己的环境里,换句话说,还不够相信云足够靠谱。如今,阿里巴巴宣布所有业务上云,是对阿里云技术实力的最高认可,也给了全行业做出了信心表率。从王坚以来,一代代技术人,终于守得云开见月明。

在这之后,神龙一路狂奔,在2019的杭州云栖大会上,第三代神龙发布。经过实测,第三代神龙作为底层架构的云计算,绝大多数指标都优于传统架构的云计算。所有人都意识到,这是一个可怕的“新物种”。

马不停蹄,时间又冲向了2019年的11月11日——“双11”。

这一年双11,总成交额定格在了2684亿,比上一年暴增四分之一。就在24点的最后冲刺之前,从舞台暗区走上来一个神秘人,他就是行癫。作为阿里巴巴技术带头人,他居然是第一次从双11的幕后来到聚光灯下。

他开心到连自我介绍都有些语塞,但这是我所见过他最畅快淋漓的演讲。

峰值每秒544000笔订单,没有任何抖动,阿里云承载阿里巴巴自己100%的核心系统,这个是我们全球第一个做到的!从此以后,所有用户都可以更放心地把自己的核心系统放在阿里云上!

那一刻,他仿佛代表身后无数技术人,暂时忘记代码的严谨和硬件的低调,只是享受聚光灯的温暖。

image

行癫

事实也正是如此,基于神龙架构的云服务不仅大规模应用于淘宝、天猫、菜鸟等业务,还吸引了一大批拥趸客户:上汽、吉利、旷视科技,不一而足。

而这次技术变革带来的影响正在迅速蔓延,全球云厂商都在跟进采用类似的技术路线,中国创造的“神龙”正在成为服务器的世界标准。未来一旦全世界云计算厂商迭代结束,节省的计算资源会是一个天文数字。

image

三年历程,神龙雏形初现,凡此劫难,九死一生。

哪怕倒退五年,可能也绝不会有人想到,阿里巴巴这家电商基因的公司,会有勇气跳入泥潭,花费数亿投入去研发互联网底层的单元——服务器。而且一出手就不是世界上的“又一台”服务器,而是“另一种”服务器。

但站在历史的岸边,完整目睹变迁的过来人也许能体会,阿里造物,真正的幕后推手是“时代”二字。

我在《阿里云的这群疯子》里写到,当年阿里云的创建,就是因为阿里巴巴面临越来越重的服务器和存储负担。时任阿里巴巴首席架构师王坚给马云算了一笔账,如果不上云,单单购买IBM的小型机和Oracle的数据库,就能让阿里巴巴破产。

而一代技术总会遇到规模瓶颈。技术竞争正如升级打怪,你跑得比别人靠前,就比别人更早遇到这一关的大BOSS。

当年那代阿里云人,从第一行代码开始,写出了阿里云底层调度系统“飞天”,成功干掉了那个年代的大 BOSS。旭卿这代人登上舞台时,阿里云服务的人越来越多,场景越来越复杂,新的 BOSS 就在眼前。

真正的技术人,其实从来没有退路。

前路总会荆棘坎坷。坐在原地,可能一生至死都不会遇到惊涛骇浪。但那些远处的峻峭风景,也随之在你生命的可能性里永久消失。

正如《约翰·克利斯朵夫》所写:人生是一场不停的,无情的战斗。向前,向前,永远不要停。

在之前的故事里,我曾经埋下一个伏笔,那就是神龙服务器的那块核心芯片。我说那片 FPGA 是现成的可编程芯片,是个“妥协方案”。

于是你可能想起,2018年云栖大会,阿里巴巴宣布了一件大事,那就是成立了自己的芯片公司“平头哥”。

image

过去几个月,平头哥连续发布玄铁、无剑、含光。

于是,中哥有了一个大胆的猜想。经过从阿里云内部多方打听,我确信了一点:平头哥正在研制的芯片中,至少有一款将要用在神龙云服务器中,替代之前旭卿一直在使用的妥协方案“FPGA”。

也就是说,下一代神龙云服务器将会搭载一颗阿里巴巴自研的芯片。

粗略算来,仅仅阿里巴巴一家公司,利用阿里云提供的服务就可以触达十亿人,而在阿里云上,还有几百万其他客户,他们同样可以触达数亿人。加总起来,神龙服务器中平头哥芯片所能影响到的人次,将突破十几亿。

那将是中国芯片的里程碑。

那也将是下一个故事。

飞鸟掠过这片古老的大地,此时此刻,正有无数中国人自己设计的神龙服务器,从各条生产线上喷涌而出,构筑起我们生存在这个星球上坚如钢铁的计算力。

身处时代大潮中,人们往往不会注目那些英雄们的身影。只有当世界终于被改变,你我才会在余晖的岸边回首旧日,恍然想起那一个个闪亮的瞬间。

原文发布时间:2019-11-13
文章来源:史中
本文来自浅黑科技,了解相关信息可以关注“浅黑科技

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6天前
|
SQL 弹性计算 运维
云上创新丨1998—2024,Serverless如何让畅捷通“大象也能跳舞”
无论是研发效率还是运营效率,所有的技术架构最根本的特点,就是降本和提效,Serverless的弹性和无需运维,两者结合能够给客户带来朴素的技术和业务价值。
云上创新丨1998—2024,Serverless如何让畅捷通“大象也能跳舞”
|
机器学习/深度学习 弹性计算 Ubuntu
“炫技”还是“真硬核”,OpenPPL 实测阿里「倚天 710」芯片
本文将以「深度学习模型推理应用」为出发点,对「倚天 710」这款 ARM Server 芯片进行性能实测。
1025 0
“炫技”还是“真硬核”,OpenPPL 实测阿里「倚天 710」芯片
|
存储 弹性计算 运维
CIPU落地专有云:是“小众需求”还是“机会之门”?
CIPU落地专有云,简单的一句话,背后却是一个不简单的故事。
578 0
CIPU落地专有云:是“小众需求”还是“机会之门”?
|
存储 云安全 弹性计算
|
SQL 缓存 安全
架构-顺势而为、不拘于形
架构-顺势而为、不拘于形
251 0
|
存储 弹性计算 安全
阿里云张献涛:自主最强DPU神龙的秘诀
读懂云计算,才能看清DPU热潮。
阿里云张献涛:自主最强DPU神龙的秘诀
|
机器学习/深度学习 人工智能 城市大脑
阿里自研NPU将于下半年推出,阿里云十年再出发,达摩院加持
智能升级后,阿里云(智能)于 3 月 21 日召开了第一场发布会,主论坛上,不仅发布了与 AI 相关的产品,还透露了阿里自研的第一款 NPU 将于今年下半年推出的消息。
240 0
阿里自研NPU将于下半年推出,阿里云十年再出发,达摩院加持
|
运维 Cloud Native 安全
围观|第一代云原生企业米哈游如何让想象发生?
在米哈游的办公区,有一间会议室,专门留给了阿里云工程师。今年,是这家二次元文化公司创立的第九年,米哈游和阿里云的交情,也有八年了。
围观|第一代云原生企业米哈游如何让想象发生?
|
编解码 弹性计算 网络虚拟化
一群阿里人如何用 10 年自研洛神云网络平台,技术架构演进全揭秘
本文主要介绍阿里云网络产品从无到规模应用的 10 年过程中,云网络技术平台洛神的发展历程。
4679 2
一群阿里人如何用 10 年自研洛神云网络平台,技术架构演进全揭秘
|
编解码 弹性计算 网络安全
一群阿里人如何用 10 年自研洛神云网络平台?技术架构演进全揭秘!
逍遥子曾说,对阿里人来说「打仗是最好的团建,参加过双 11 的叫战友」,同样,参加过多次双 11 考验的系统技术都会成为真正意义上的基础设施,阿里云飞天系统的云网络平台洛神就是如此。