阿里技术保障高山渊:阿里基础设施自研路线图

简介: 据保障君了解,云栖大会已被评为国内人均价值最高的会议,所以干货不能停啊,精彩内容继续来,今天给大家推送的是阿里巴巴技术保障研发总监高山渊的演讲内容。

据保障君了解,云栖大会已被评为国内人均价值最高的会议,所以干货不能停啊,精彩内容继续来,今天给大家推送的是阿里巴巴技术保障研发总监高山渊的演讲内容。

以下为演讲PPT:

今天我想聊聊阿里巴巴怎么样去做好我们的基础设施,让我们的云客户能够享受到这样好的优质服务。

image.png

我今天的演讲主要有三个部分,一个是基础设施到底是怎么样来支持业务发展的,设计的原则是什么?在中间的演讲环节,有一个同学问到,我们建设一个像千岛湖数据中心的时候,考虑的原则是什么?我会做一个阐述。第二,我们在这个的原则支持下,我们做了什么东西?我们今天自研的技术成果是什么样的状态?未来几年我们在基础设施方面投入什么样的研发,为更好的云技术的未来做更好的服务的设施。

image.png

根据美国针对300多位专业人士的调研,他们在选择云计算的时候,会考虑很多方面,但是在云计算的基础设施方面会优先考虑三件事,第一是基础设施的可靠性,第二个需求是性能,第三是对于成本的考量。刚才主持人说使用云计算需要能力,其实建设运营基础设施需要更高的能力。如果在这方面的能力不够的话,你更加要用云计算来帮助你解决这样的问题。

image.png

我们今天做云计算基础设施就是要去应对这样的挑战,满足客户对于可靠性、性能、成本这三者合一的挑剔的要求。为什么说是一个挑剔的要求?因为我们知道对于这样一个可以说类似于CAP理论的东西,我今天既要东西好、可靠性高,又要性能好,就意味着更多新的东西要用,又要我的成本低,这是非常难以做到的。

image.png

按照RFC1925网络12条军规的结论,在这种三个都要的情况下,几乎不可能做到。我们今天去面对这样的挑战,就是要在这三个中间寻找最佳平衡。这样带来很多的取舍,因为这个基础设施是非常复杂的东西,比如说我今天从服务器出发,服务器往下拆解,会涉及到CPU、电源、机箱等等,同样我把基础设施累加起来往宏观方面建设的时候,也会碰到这样的问题。

网络怎么样把它连通,怎么用软件把一个一个标准的服务器云化出来提供给客户,每一个层次上都会碰到很多的问题。在这样的复杂的系统里面牵涉都很多的领域,你调整一个非常小的变化,可能会牵一发而动全身,让你整个系统很能达到一个最优的状态,这是我们非常难以做好的第二个挑战。

image.png

第三个挑战是硬件研发周期是非常长的,投入的研发非常的高。今天我们要运营一个非常庞大的基础设施,阿里今天在这样的环境下,我们还不是说所有的硬件都要自己做的情况下,投入的研发费用已经是好多个手指都数不过来的数字了。针对这样的条件下,你要把这个事做成,就是我们今天基础设施最大的挑战。

既然用户有这样的稳定性,高性能、低成本的诉求,我们怎么样去应对这样的挑战?下面就是回到刚才那位同学问的问题,我们在基础设施上怎么样?比如说今天发布的量子加密产品,以及在二楼展示的最新自研硬件,既然用户需要可靠性和成本,我们就要兼顾它。除此之外,云客户需要的解决方案,我们给他提供一个裸的产品是满足不了用户对于高性能云计算基础设施的要求的,所以我们也会去提供系统化的解决方案,比如说OAS等等。这些内容我们都在后面会详细的介绍我们是怎么去做到这些可靠性、性能成本的平衡,包括给业务提供统一化的解决方案的。

image.png

回到前面说的挑战里面,从整个产业来看,假如说我们从服务器的角度分析,可以分成几个层次,我们今天要做的事就是在每一个层次上掌握每一个层次应该有的核心技术。比如说对于传统上在OEM比较强项上,它会交付给我一个成品的东西,但是今天成品的东西对于我来说不能满足用户对于基础设施的要求,我会介入到系统的设计,供应链的管理等等环节去掌控我这个环节的技术,掌控我这个环节的供应链去提升我的质量,降低我的成本。传统上很多OEM的服务器都是ODM去做的,我们怎么样通过我们的努力去让ODM的核心能力能够直接的作用于我们的基础设施,为我们的云计算服务,这是我们今天正在努力要做好的非常重要的方面。

再往上是产业链的最上游,涉及到物理学、材料等等,对于最终的成本、性能都是有非常大的影响,我们能否去搞清楚这样一个尖端行业里面的技术点在哪里?我们能够用到它什么好的技术去作用于我们今天的基础设施,是我们今天再去努力的方向。

image.png

前面讲完了我们对于基础设施的出发点,我们要满足用户对于基础设施在稳定性、可靠性、性能成本三者之间平衡的考虑基础上,我们取得了什么样的成果,我们在后面做了一个展示。大家一般会把云计算的产品分成存储、计算、网络等等。前面周明在对于基础设施的整体规划里面做了比较多的介绍,最底下的两张图片,是我们今天在千岛湖的实景图片,非常的漂亮,不管是左边的夕阳落下去的图片,还是右边的湖水分流的设计,照出来都是非常的漂亮。最终大家说云计算也好,大数据也好,都落在两个地方,一个是存储,二是存下来的数据我要做怎么样发挥。

image.png

首先说IDC,我们今天看到的实际上是千岛湖的概括介绍,对于阿里所有的IDC来说,一直以来的追求是绿色环保、高效节能。回到我们的原则上来说,我们的原则是低成本、高效率交付给客户。像千岛湖这样的数据中心,我们做了大量的技术创新之后,能够得到的一个结果就是能源效率指标PUE。我们在做一些技术的储备,为未来在张北的数据中心做一些技术的准备。这样一个数据中心,不论是性能还是效率,已经达到了世界先进的水平。

另外在数据中心里面我们要考虑的是的交付效率,因为今天的数据中心的建设周期是非常非常长的,从拿地到谈各种条件,以年计的周期。今天在互联网变化这么快的条件下,这样的速度是不能满足业务发展需要的,我们在交付效率上做了大量的研发工作。模块化数据中心ADM体现了我们的交付技术,可以使我们的IDC效率提升40%。在供电上我们也做了非常多的创新,比如说市电、直流。传统的电要经过几级的变压、整流,这里面每一级的转化都会有一些损耗。但是今天阿里这样整个的供电效率里面我们能够达到97%的效率,这是非常不容易的事。另外我们的数据中心都经过AAAA的认证。

我们做了这么多的创新,不能说我们要用新的技术,我们要降低我们的成本,就去冒然用不安全的东西,相反我们要更加提升我们的安全性。

image.png

我们有一个天蝎计划,服务器的整机技术。稳定性方面,所有的天蝎的服务器,经过认证比传统的服务器有所提升。传统的每一台服务器都有单独的电源供电,电源要做一加一才能保证它的稳定,更大的问题是风扇震动导致的硬盘故障。另外是部署效率,整机的交付我们可以做到一天物理部署五千台服务器。低成本,TCO优于传统的服务器。

image.png

另外在计算领域,阿里今天跟英特尔有深度的合作。我们为了云计算的发展,为了我们自己的业务发展,在计算领域跟英特尔做了非常多的技术探讨。之前不管是阿里也好,还是国内其他的行业,在大部分时间远远落后于英特尔的步伐。例如,英特尔在发布一个新的CPU之后,我们使用的时候已经落后于它6到9个月。但到今年年底前,我们将能够做到和英特尔同步发布最新一代英特尔CPU架构的云计算产品。这就是我们跟英特尔做了非常多深入合作的结果。

image.png

另外是存储。之前主要做了一件事,基于PCIE接口的Flash,它的一个好处就是性能非常好,而且成本比较低。在这两个之外更重要的是我们这一款是可以软件定位的系统,我们结合我们的业务场景,把我们在上层应用里面不容易解决的问题,用硬件的方式写到我们的部件里面解决,这样极大释放了我们业务研发的压力。这个存储服务器是专门为存储做的定制存储,结合了专用的存储服务器,我们也推出了一款专门的云产品,它能够做到一个非常低的存储成本。亚马逊有相关的产品,我们能做到比亚马逊售价更低。

image.png

另外一个是网络。大家一直以来对于互联网访问中出现的各种各样的问题,好象觉得都是网络的问题,有些不见得是,但是网络今天追求的目标是稳定可控。因为网络对于云计算来说是非常重要的基础设施,网络如果做不到高稳定性的话,一个小的波动会影响到上层非常多的云计算的稳定性。我们今天是10GE的全面的应用,40GE的Aliguard,我们基于这种网络高性能的软件加硬件一体化的解决方案做到了单机房可以防护1TB能力的水准。我们网络自研的成果体现在网络的质量提升。对网络管理方式的优化,自动化部署等等的方式都会在这个网络上体现出来。未来还有一些智能网络的设备会投入使用。

image.png

最后再讲一下量子技术。实际上量子这件事能够运用到互联网里面是非常的不容易的,光我们技术保障部就投入了非常多的人力,经过了两年多的时间,我们才能说我们可以把这个东西用起来。随着云产品的发布,会有更多有意思的东西发布出来,未来的话可以展望一下,应用我们的生产技术是可以期望的。对于量子计算来说,我们会积极的跟中科院的团队探讨,把我们的质量控制方面的经验等等做一些深入的探讨和交流。

image.png

未来的重点突破方向,还是这些东西,但是这些东西会每一个都更上一层台阶。比如说对于IDC来说,张北会更绿色、环保、节能。另外,在这种自研IDC的控制下,我们多了一层对业务的保证。服务器是未来的标志,预计在今年年底或者说明年初会应用于我们的产品里面。在计算领域,除了跟英特尔加强合作以外,我们还会在其他方面加强合作。

image.png

image.png

今天我的内容就到这儿,谢谢大家!

image.png

最后保障君送福利来啦!2015年云栖大会演讲嘉宾ppt资料下载地址:http://yunqi.aliyun.com/2015/download-docs.php?spm=5176.100131.2.3.4ztGfw

目录
相关文章
|
11月前
|
消息中间件 运维 Kubernetes
《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.1 核心业务上云最佳实践——4.1.2 云原生应用架构优势(上)
《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.1 核心业务上云最佳实践——4.1.2 云原生应用架构优势(上)
132 0
|
11月前
|
监控 Kubernetes Cloud Native
《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.1 核心业务上云最佳实践——4.1.2 云原生应用架构优势(下)
《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.1 核心业务上云最佳实践——4.1.2 云原生应用架构优势(下)
117 0
|
11月前
|
云安全 供应链 监控
《2023云原生实战案例集》——04 互联网——Salesforce 容器化改造,成功落地安全可信软件供应链
《2023云原生实战案例集》——04 互联网——Salesforce 容器化改造,成功落地安全可信软件供应链
|
11月前
|
云安全 新零售 人工智能
重磅发布 | 《云上企业战略与发展设计框架白皮书》
编者按: 云计算是企业数智化转型的基础和催化剂之一,也是企业转型必不可少的技术要素。但“上云“之路并非坦途,可能会遇到安全合规、业务复杂性、团队能力,基础设施等诸多挑战和难点。阿里云联合中国(深圳)综合开发研究院共同发布《云上企业战略与发展设计框架白皮书》,引导企业增强数智化转型发展的意识和能力,直面数字经济机遇挑战,从“企业上云”向“云上企业”升级。 文末附白皮书下载链接 全文约2137字,建议阅读时间6分钟。
350 0
|
SQL 分布式计算 运维
国产自研、安全、高可用——袋鼠云大数据基础平台EasyMR筑基企业数字化转型
俗话说 “基础不牢,地动山摇 “。大数据基础平台什么?是打地基的,是重中之重,地基扎得越深、打得越牢,上面的建筑才能越稳定。可以说,数字化转型的 “万丈高楼” 起于基础平台,具备自主可控的平台建设能力,是真正意义上一切的前提。 袋鼠云今年 7 月最新推出自研大数据基础平台 EasyMR,该产品提供 Hadoop、Hive、Spark、Trino、HBase、Kafka 等组件的自动化安装、中心化管理与集群监控告警功能,完全兼容 Apache 开源生态,支持企业级安全管控,一键开启 LDAP+Kerberos+Ranger 认证权限体系,以及提供一站式运维管理平台。
313 0
|
Java 中间件 Devops
工程师们不断推动下的云服务架构
工程师们不断推动下的云服务架构
工程师们不断推动下的云服务架构
|
存储 分布式计算 DataWorks
某智能终端厂商流量商业化项目的云原生大数据平台实践
随着流量获取,移动互联网业务成为集团三大战略之一,启动流量商业化项目,包括类似阿里妈妈的流量联盟、帮助广告主更好买量的数字化营销平台以及用户体系等,其中广告检索和广告大数据平台成为支撑整个流量商业化项目的技术基础。
3228 0
|
弹性计算 缓存 负载均衡
互联网行业高弹性系统构建最佳实践
在互联网行业的业务发展中,针对业务突发性的特点,系统需要有弹性伸缩的能力。
互联网行业高弹性系统构建最佳实践
|
运维 资源调度 监控
SOFAStack背后的实践和思考:新一代分布式云PaaS平台,打造企业上云新体验
近几年云计算的发展如火箭般迅猛,异构变革日新月异,这是基础设施层明确的发展趋势。值得关注的是,随着基础设施的复杂度越来越高,也为整个基础设施的统一资源调度带来了极大挑战。在越来越复杂的异构基础设施上,存量应用和增量应用应该如何上云?面对大量异构基础设施带来的挑战,企业如何最大化上云价值?12月15日,在以“引领分布式云变革 助力湾区数字经济”为主题的全球分布式云大会上,蚂蚁集团数字科技事业部产品总监马振雄分享了在分布式云异构基础设施之上,蚂蚁集团在构建分布式云PaaS平台SOFAStack背后的实践和思考。
277 0
SOFAStack背后的实践和思考:新一代分布式云PaaS平台,打造企业上云新体验
|
运维 资源调度 监控
SOFAStack 背后的实践和思考|新一代分布式云 PaaS 平台,打造企业上云新体验
在越来越复杂的异构基础设施上,存量应用和增量应用应该如何上云?面对大量异构基础设施带来的挑战,企业如何最大化上云价值?
SOFAStack 背后的实践和思考|新一代分布式云 PaaS 平台,打造企业上云新体验