袋鼠云CTO宁海元(花名江枫)在2018杭州云栖大会袋鼠云数据智能专场 演讲内容

  1. 云栖社区>
  2. 袋鼠云技术团队>
  3. 博客>
  4. 正文

袋鼠云CTO宁海元(花名江枫)在2018杭州云栖大会袋鼠云数据智能专场 演讲内容

袋鼠云 2018-10-09 10:56:47 浏览1340
展开阅读全文

569ee40c30e9fc98bfb7e0b5154a868c7bc08cc9


袋鼠云从去年开始提出数据智能的理念,已经被越来越多的企业所认同。我认为,数据智能需要分成两部分来看,一部分叫做数据中台,打造企业在数据底层基础建设的能力;另外一部分是基于数据中台,和不同行业和企业客户的业务场景结合的智能应用的创新。


今天想要跟大家再次分享数据中台这个理念。数据中台提出到现在差不多有两到三年的时间,基本上跟袋鼠云创业的时间是差不多的。所以,我们从创业的第一天开始,就很坚定说袋鼠云希望帮助企业构建数据中台的能力,那么什么是数据中台呢?


我们可以看到,数据从产生到应用的整个链条其实是非常长的。首先是一切业务数据化,其次是不同业务数据之间的打通。其实数据打通是一件非常非常麻烦的事情,我们跟很多客户聊下来,不管是政府也好,企业也好,数据打通都是一个很头大的问题。我们在跟西湖景区的交流过程当中,大家知道过去二十年,我们的企业和政府做了大量的做IT信息化建设,取得了很多的成果,到目前为止建设了超过500套系统,这些系统由不同的供应商做的,今天我们称之为烟囱式的建设方式,不同之间的数据打通就是一个很大的问题。因为数据不通,要做数据应用的创新就会有巨大的成本。我们今天可以把数据从产生到使用的闭环抽象成四个字来总结,就是“存,通、用、智”。其中,用和智本身是一体的。智是用的一种升级,从原来比较简单的分析报表到今天的智能化,针对业务场景的应用有了更多的创新。


袋鼠云希望帮助客户构建的数据中台,本质上是构建数据共享能力中心,帮助客户解决数据存储和计算的问题,解决IT信息化建设遗留下来的各个系统之间不通的问题,在此基础上构建数据场景的应用创新。数据中台可以说是一种新的范式转移,从传统的信息化建设到数字化建设,新的技术创新的曲线正在兴起。


袋鼠云和企业客户一起建设数据中台,除了简单把数据汇聚、打通和共享,实际上还有更大的价值。我把它总结为四点。首先,我们通过数据中台的建设为企业全面梳理数据资产,构建全域的数据中心。其次,今天要想做到全域数据中心,在企业里面有很多困难,包括组织架构之间的壁垒,要实现真正的数据中台,一定要在战略层面的高度来驱动,并且有组织架构的保障,而不能像传统IT信息化建设一样找厂商买一个套件或者单纯起一个外包项目的方式。数据中台一定要跟业务之间形成一个闭环,通过业务的不断滋养,驱动数据中台进行持续的服务创新。最后,通过数据中台的建设,我们可以实现数据资产管理和数据治理流程的在线化,使得建设团队的人才的培养和知识的传承能够在线的完成。


过去两年,袋鼠云在数据智能领域和不同的行业客户一起做了很多的实践。在这个实践过程当中,我们也总结出了一套数据中台的建设思路,简单分享给大家。我认为有三点很重要,第一点是方法论,我们从15年开始讲方法论已经讲了很久,第二点很重要,就是要有产品和工具,不像传统的咨询公司PPT上面写满文字,但往往只停留在PPT阶段。我们最终落地数据中台一定是通过产品和工具。第三点,数据中台建设的第一步还是要通过项目的方式,所以我们也需要一套实施的流程保障。这三点都很重要,但是我们更希望将方法论和流程保障通过产品的不断迭代来固化。所以我们花了两年的时间,投入了一个强大的研发团队,沉淀了一套名“数栈”的产品,我把它定义为企业级一站式数据中台PaaS。


今天企业要收集数据、使用数据并产生价值,在这个链条当中经常会碰到几个问题,包括数据计算的问题、数据开发的问题、数据治理问题、数据应用的问题,等。“数栈”作为一款企业级一站式的数据中台PaaS,我们希望帮助我们的客户在更好的去解决这四个问题,提升效率并降低成本。


本世纪初有一部很有名的电影叫《天下无贼》,里面黎叔有一条名言,“二十一世纪什么最贵?人才”。这句话放在今天的大数据行业里面来看非常对,我们今天招一个大数据的人才,时间成本和财务成本都非常大。因为大数据的技术门槛还是比较高的,在开源的Hadoop生态中,两三年就会迭代出一个新技术出来。今天做大数据需要掌握很多的技术知识,很多计算机学生毕业之后还需要去参加专门的大数据班。我们希望借助“数栈”这样的产品,让大家在95%以上的场景中,能够像传统的数据仓库建设一样通过写SQL来解决问题。我们把整个大数据从采集,到开发调度,到运维,到数据资产管理,到结果的输出,整个过程都是能够可视化的操作,就像Windows一样。我们希望通过“数栈”这样的产品,帮助我们的企业客户,从大数据的dos时代,进入到大数据的Windows时代。


数据中台跟传统的数据仓库不一样。传统的数据仓库,大部分数据来源于业务系统里面的关系型数据库。到了互联网时代,还有大量的数据来源于用户行为的埋点采集,未来万物互联的时代,还会有更多的数据来自于IoT。所以,数栈做为一站式数据中台PaaS,必须要解决多端数据采集和融合的问题。另外,还必须要解决数据计算统一的问题。传统的数据仓库能做到T+1的离线计算就已经可以了。但是互联网时代,比如双十一活动这样的场景,运营一定要实时的看到数据,数据的实时计算就越来越重要。2016年人工智能大潮再次兴起,未来智能化场景对于智能计算的需求也会不断涌现。从离线计算到实时计算,再到智能计算,我们每个场景是不是要搭一套独立的产品呢?如果按照传统的信息化建设思路,很可能是这样的。但是,我们希望借助“数栈”能够解决统一计算的问题。


数栈要实现这么多功能,是不是会变得很重很复杂?不是这样的,数栈的部署可以是非常轻量级的,在5台虚拟机上就能流畅跑起来,随着企业数据的快速增长和爆发,数栈也具备扩展到5000台以上机器的弹性能力。数栈的计算引擎是基于开源的Spark和Flink双引擎驱动,这些开源的引擎已经非常成熟,我们没有必要重新再去造类似的轮子。但是在实际业务场景中,也会发现开源的引擎也有一些不太能满足业务的地方,比如说实时计算需要做维度表关联分析,目前Flink处理的就不是不太好,我们研发团队对此做了改进,并且也已经开源出来回馈给社区。同时数栈依赖的是开放的X86架构,不需要任何专有的硬件。


数据中台要帮助企业把数据资产管理起来。在数据资产管理当中,我觉得有三个点非常重要。第一个是生命周期,我们通过扩展表的创建语法,强制为每个表指定了生命周期。在传统数据仓库建模时,很多中间表的时效性是非常短的,往往只需要一周的数据,我们原来在开发当中没有注意,经常出现中间表存了几年的数据的情况,浪费了大量的存储。数栈通过生命周期的技术约束来保证这样的浪费不会发生。另外一个我们在排查问题的时候经常发现这个表出现问题,他跟哪些表是有关系的,这个表里面的字段是从哪几个字段计算而来,这个表修改对下游任务会造成哪些影响,等等,在排查类似问题的时候,以前需要去看代码,今天通过“数栈”的血缘分析,可以轻松的可视化展现出来。第三点,是每个表都要求明确的标记责任人。


大家都很关注数据安全,我们今天做数据必然跟安全相关。数栈作为数据中台PaaS,它是可以独立部署的,首先可以确保企业的数据保存在可以掌控的环境中。另外,数栈从引擎层到可视化层实现了租户隔离,权限分级,动态隐私脱敏。并且所有的操作都是有日志保留下来的,以供审计使用。


在数据治理中,元数据管理一直是一件重要而令人头痛的事情。数栈做为一站式的数据中台PaaS,所有的数据开发入口是统一的,这样就可以通过代码扫描自动解析的方式实现自动的元数据管理和更新。其次是数据质量的问题。如果一个数据开发工程师早上9点钟没有接收到自己所负责的ETL任务的告警短信,不一定代表不会被老板骂了,因为很有可能老板突然告诉你某个指标少了30%,最后发现ETL调度任务虽然执行成功了,但表中的数据因为生产源数据库变动出现了质量问题。为此,我们也设计了数据质量监控产品,把我们过去遇到的很多的数据质量问题的监控规则内置在其中。


随着企业数字化建设的推进,数据中台PaaS上面的数据会越来越多,比如有可能超过100万张表,每天跑的任务有10万个。如果表和字段的命名没有规范,最后一定变得越来越混乱,所以我们在数栈中设计了数据模型的模块来解决这个问题。我们希望数据质量和数据模型的约苏不仅仅停留在形成一份规范的Word文件上,而是要内置系统中通过技术进行约束。


我们之道云计算分为IaaS,PaaS和SaaS。数栈的定位是数据中台PaaS,所以也天生就是云计算。数栈对IaaS是没有依赖的,可以部署企业的私有云上,也可以部署在公有云和混合云上。因为数栈支持计算引擎的多集群管理,所以数栈实际上也支持混合公有云的部署,比如一个集群部署在阿里云上,一个集群部署在AWS上。


在过去这两年,玳数云和很多的企业客户一起共创了不同行业的数据智能应用场景,接下来我想要跟大家简单分享4个案例。


  • 第一个案例是茅台,这个案例我们在去年云栖大会上面开始讲,今天我为什么还要拿出来讲?因为我们去年是刚刚开始做,今年一期建设大部分已经交付,建设成果已经出来了。大家如果去年用茅台云商话,你在PC端茅台网站上注册帐号买东西,然后下载APP再登录的时候,会发现还要重新注册帐号,因为这是通过两个项目由不同的供应商建设的两套烟囱式的系统。今年我们和阿里云一起帮助茅台云商实现双中台战略的落地。大家再去茅台云商上面试一下,PC端网站和App已经打通了。通过一期的数据中台建设,我们已经帮助客户实现了数据的基础架构和数据化运营场景的落地。

  • 第二个案例浙江新华书店和中金数据合作成立的中金易云,我们一起基于数据中台打造了面向图书出版发行大数据平台。这个案例的价值在于,我们和中金易云构建的这个数据中台,是面向整个图书行业的,而不是仅仅为企业自身服务。今天我们也有幸邀请到中金易云的朱总过来给大家做进一步的分享。

  • 第三个案例是几个月之前,阿里云和浙江大学发起,袋鼠云和其他几家公司参与一起成立的智云实验室。我们看到在高校里面的IT建设可能比企业里面要更加复杂。今天问西湖景区的IT建设之道由500套系统,但今天问一个学校的信息中心主任有多少套系统,他很肯尼个不知道。因为高校里面,每个院系和单位很可能都在各自进行信息化建设。智云实验室的成立,希望在高校中推动中台体系的落地,这张可视化大屏我们在浙大初期的建设成果的展现,通过将计财数据融入到数据中台,让校长做到“心中有数”。

  • 第四个案例是蓝光地产。今年,阿里云和袋鼠云在地产行业有了越来越多中台案例的落地。我们在跟蓝光的客户交流中,客户问了两个问题非常有意思,今天在这里分享给大家。第一个,“公司经营20多年沉淀下来到底是什么?”,第二个,“公司在走向未来的路上,公司的优势是什么?”。


我们在跟客户梳理后,总结成四个标签,分别是资产、能力、方法和视野。我们希望跟蓝光共创的大中台战略,总结成一句话,叫做“构建互联网化载体,沉淀并赋能,是蓝光大中台的业务使命”。对于蓝光来讲,到底什么是资产?他建的楼房是它的资产吗?当然,这是资产的一部分。实际上蓝光的资产不仅仅是建的楼房,还有人的资产,包括用户、员工和伙伴。除了房屋,也还有物资和社区。我们需要把这些资产都能够数字化出来,并且跟外部的一些数据能够打通连接。


通过数据中台的建设形成企业的数据共享能力中心,最终要能够赋能到业务部门的各种智能应用的创新,包括营销的创新、产品的创新、服务的创新,供应链的创新等等。这张图是在和客户梳理这些数据资产的过程当中,也是希望借助可视化大屏的形式,能够把蓝光的数据资产一目了然呈现出来。


除了这四个案例,过去两年袋鼠云还在不同的行业有更多的实践案例,今天我们也邀请到部分伙伴和客户在这个专场跟大家做深度分享,同时我们在C馆406还有展台,如果大家对袋鼠云数据中台和智能应用想有更加深入的了解,下午也可以去展台转转,我今天下午都会在展馆等大家,可以继续做深入的交流。因为时间的关系,我今天上午的分享先到这里,谢谢大家。


————————


 

关于袋鼠云:


www.dtstack.com

袋鼠云是国内领先的数据智能践行者。袋鼠云始终坚持让数据产生价值的核心理念,致力于让未来变成现在。袋鼠云始终坚持将数据智能的先进理念、技术实践,传播、应用到行业客户中,通过为客户提供数据智能的整体解决方案,帮助客户提升生产效率,进而促进产业创新和社会进步,真正让数据产生价值。

 

关于宁海元:


2007年加入淘宝,花名江枫。
双十一大促技术指挥部成员,IOE”数据库负责人。
打造过千亿级实时日志平台、手机淘宝日志分析创始人、阿里云数加平台技术创始人。


24969228e5ebf4dbe75f3560b84a094079eaed92

 

 

网友评论

登录后评论
0/500
评论
袋鼠云
+ 关注
所属云栖号: 袋鼠云技术团队