郭东白:“系统是唐僧,我们是孙悟空”,阿里AliExpress演绎技术版西游记

  1. 云栖社区>
  2. 博客>
  3. 正文

郭东白:“系统是唐僧,我们是孙悟空”,阿里AliExpress演绎技术版西游记

玄学酱 2017-07-07 14:47:00 浏览1698
展开阅读全文
首届阿里巴巴在线技术峰会(Alibaba Online Technology Summit),将于7月19日-21日 20:00-21:30 在线举办。本次峰会邀请到阿里集团9位技术大V,分享电商架构、安全、数据处理、数据库、多应用部署、互动技术、Docker持续交付与微服务等一线实战经验,解读最新技术在阿里集团的应用实践。

        7月20日晚8点,阿里巴巴AliExpress(速卖通)技术部总监郭东白将在线分享《基于大数据的全球电商系统架构性能优化》。为了帮助更多技术伙伴了解他,也更加深入了解技术分享的背景,云栖社区特别整理了这篇文章。

       阿里巴巴在线技术峰会专题:http://click.aliyun.com/m/5229/

       阿里巴巴AliExpress(速卖通)技术部总监郭东白,阿里人喜欢称他为阿白。这是一位有16年大型软件系统研发和架构经验,对跨大洲、高可用、高流量服务端软件架构和研发有深入研究的技术大V。他领导设计了全球跨国家、多市场、多语言、多币种、实时个性化、每秒近万笔订单量的多机房异地多活电商平台,连续两年在超过200%流量增速下保持了99.99%的可用性。

        16年来修炼的技能:全栈架构、数据供应链和标准化

        2001年布朗大学博士毕业后,郭东白到了Oracle做图像检索和医疗图像数据库,同时负责整个Oracle的全球医疗图像标准的组织和参与;2010年离开Oracle,到了Microsoft的医疗事业部,做医疗数据的语言网络、数据供给链和数据挖掘,以及在SQL Server部门做数据市场,也就是做流数据的在云上的售卖系统。之后是亚马逊,做亚马逊即时视频即数字电商。在微软和亚马逊,他还一直在担任相应领域的全球标准领导人和策略制定者。

         一直沉浸在跨大洲、高可用、高流量服务端软件架构和研发的郭东白是2014年来到阿里的,现在负责阿里巴巴AliExpress(速卖通)的技术。InfoQ的记者曾好奇地问他为何离开生活了19年的美国,选择来到阿里?他坦言到:“看重的是AliExpress的技术挑战。2014年AliExpress有数十亿美金交易额,全球网站排名前50,日成交下单数千万量级,成交国家200多个。这里面都具有大数据问题的高容量、高复杂度和高速的特征。这样的大体量、高增长的业务对一个技术人员来说是个梦寐以求的天地。回国给了我们相当多展示才能的机会,那种感觉就像,孙悟空逃离五指山下后翻的第一个大筋斗。”

         而在被问到整个职业生涯修炼的技能时,他总结为三点:

       1、全栈架构能力;
      
       2、 整个数据供给链的知识,这里包括采集、处理、大数据分析、语义和电商体系;
   
       3、 标准化的软件研发体系。

         AliExpress的发展就是一部技术版的“西游记”

         如果以“电商系统架构性能优化”为关键词的搜索中,在相关学术文献中有超过3万多篇内容,由此可见持续性热度。但传统性能优化多是关注技术指标,而对最终的业务结果很难量化。对于这个问题,阿里巴巴的AliExpress(速卖通)团队有一个突破性的方案——基于大数据准确度量性能对电商业务的回报的方法。就是说,任何一个微小的局部性能优化(investment)带来的新增订单(return)可以被精确估算出来。所以,在性能上的投入产出比(ROI)就可以被准确的度量出来。这种准确的度量,不但帮助团队更理智的决策在性能的投入,而且带来了新的跨团队、可拆分、并且是可以大规模协同、和跨领域复制的全新的性能优化模式。 因为一个小的性能优化可以局部测试后再分批、分阶段、分团队、跨领域大规模复制。

          这也是郭东白本次分享的重点。更是AliExpress所储备的技术能量中的一环。

          两年的时间,AliExpress的发展已经印证了郭东白当年的判断。现在,AliExpress线上有近万种移动设备(型号),而App发布不到一年,在全球40多个市场下载量排名第一。谈到最让人激动的技术收获,郭东白认为有两个:“一套系统全球部署,这是个非常大的挑战,我们核心团队协调多个BU,踩了无数的坑的情况下最终完成了这套系统的全球实施;双11:全球压测技术,全球性能监控。”

         事实上,前者所指的的是跨州异地双活。在此领域,仅去年就申请了11项专利,这些专利主要集中在区域化部署方向。而AliExpress计划2020年全球零售平台交易额达到6万亿,其中一系列的技术储备中,整个系统已经做到的Scalable就是最为重要的一项。因为这意味着AliExpres可以把一个系统部署到全球几个、几十个,甚至是几百个机房,而相关运营成本却不会成十倍或者是百倍地增长。

        郭东白如此评价:“不客气地说,在这个技术上AliExpress已经走在了全球竞争对手的前面。即使在没有业务团队的国家,通过AliExpress全球市场的设计,这一点和Amazon、eBay很不同,我们也可以过数据化运营的方法,而不是铺人铺团队的方法做业务扩张。事实证明这个思路是正确的,这是一场技术的胜利。”

         “双11:全球压测技术,全球性能监控”则有一组数据可以分享:“2015年双11那一天,在214个国家和地区有2200万单交易,当时全球有六家大银行被AliExpress的交易量冲垮,但是我们自己的系统在300%的峰值交易量增长面前没有任何闪失。作为一个技术人,我很为自己的团队和系统骄傲!”

         郭东白还幽默地将一路上的技术挑战形象地比喻为“西游记”——系统好比唐僧,我们好比孙悟空。孙悟空一不小心,哪怕只是转身吃个桃子,唐僧可能就被妖精抓了去。在AliExpress搭建了全球网络的监控系统中,用红色表示网络有重大故障,绿色表示一切正常。从一年前监控开始到现在,还没有哪一刻全球整个网络全是绿色的。每睡一觉醒来就发现总会出事儿,但是你就是不知道问题出在哪里罢了。就好比我们每天都在打妖精打怪,最大的问题是,怪从哪里冒出来你还真不知道。

         读source code学到的知识比较实在

         相信很多电商技术伙伴会对议题感兴趣,云栖社区特别帮大家问了一个问题:如果以全球视角来看,哪些要素需要在电商架构设计之初就要有所考虑?

          1. 结构化的性能指标收集

          2. 用户行为的采集,处理和实时分析框架

          谈到分享的内容, 利用“基于大数据的全球电商系统架构性能优化”的模式,阿里巴巴的AliExpress团队在6个月内带来10.5%的订单增长,并且这个模式被复制到了阿里巴巴全集团十几个BU,其中包括淘宝、天猫、聚划算和阿里云。

         AliExpress开发的性能体系有理论支撑,有完整的平台建设,有全球监控能力,有研发组织保障,有在全集团的推广,有长远规划,而且最最重要的是有真金白银的业务回报。我们以开放的心态迎接各种挑战,这里面包括对前沿科学的研究,对相关技术(比如说黑客的动态)的监控,以后有机会都可以来分享。

         如果要分享成长中的感悟,郭东白说:“我感觉做全球化业务最关键的一个字就是‘快’。全球市场现在已经是处于一个竞争环境,只要你反应够快,对手再强大你还是有机会的。”

         而对于架构师的自我修炼,郭东白的建议是:“不断的实践和学习。我感觉读source code学到的知识比较实在。最后推荐给架构师们一本书: Vanghn Vernon (2013), Implementing Domain Driven Design, Addison Westley。”

         7月20日晚8点,欢迎分享到朋友圈,不见不散!


        议题:《基于大数据的全球电商系统架构性能优化》


        议题简介:传统的性能优化往往只注重一个技术指标,最终的业务结果很难量化。本次演讲向大家介绍一个基于大数据准确度量性能对电商业务的回报的方法。也就是说,任何一个微小的局部性能优化(investment)带来的新增订单(return)可以被精确估算出来。因此,我们在性能上的投入产出比(ROI)就可以被准确的度量出来。

         这种准确的度量, 不但帮助我们更理智的决策在性能的投入,而且带来了新的跨团队、可拆分、并且是可以大规模协同、和跨领域复制的全新的性能优化模式。 因为一个小的性能优化可以局部测试后再分批、分阶段、分团队、跨领域大规模复制。

        利用这种模式,阿里巴巴的AliExpress团队在6个月内通过性能优化带来10.5%的订单增长,并且这个模式被复制到了阿里巴巴全集团十几个BU, 其中包括淘宝、天猫、聚划算和阿里云。



====================================分割线================================

本文转自d1net(原创)

网友评论

登录后评论
0/500
评论
玄学酱
+ 关注