阿里大数据SRE专家池枫:做Tesla,是因为传统运维方式已不能满足业务发展需求

简介: “大数据在业界初露峥嵘,阿里巴巴内部大数据的业务也快速发展,产品种类,服务规模双双增长,并且产品的迭代周期极大缩短,各种异构的集群级大数据产品造成了多种多样的运维模式,给我们团队带来了相当大的压力,大家明显感到传统的运维方式,已经远不能满足快速的业务发展。”对于Tesla的由来,池枫如此说到。
4月20日20:00-21:30,一场别开生面的技术大会—— “运维/Devops在线技术峰会”将在线举办。从网络基础架构实践和演进,到同城容灾架构剖析;从如何稳定、安全的使用云数据库,到企业如何在云上安全加固最佳实践;从阿里云专家理解的DevOps,到如何构建一个通用化的智能运维平台……不仅一一告诉你云上的运维重点在哪、运维人应该如何思考,也手把手教你如何做。同时,对于处于转型中的企业,我们也邀请了有代表性的互联网公司来分享他们的亲身体验。

阿里云运维/Devops在线技术峰会官网: https://yq.aliyun.com/activity/188
峰会统一报名链接: https://yq.aliyun.com/webinar/join/167

0d7328d37929ca775c85f1040390f9a86dd4b0e3
阿里大数据SRE技术专家池枫说,他希望Tesla是一个创新、高效的自动化、智能化平台

池枫,阿里大数据SRE技术专家。2011年加入阿里巴巴大数据SRE团队,见证阿里大数据产品最快速的发展过程。先后负责阿里Hadoop、Hbase、Apsara、ODPS等产品运维, 全程负责大数据运维自动化体系建设。历时2年时间带领团队完成Tesla智能运维体系设计,开发,落地,进化历程。专注智能运维在大规模异构集群下的场景应用,专注业务运维与智能运维结合后的转型道路探求。

在4月20日20:00举行的运维/Devops在线技术峰会上,池枫将会分享《如何构建一个通用化的智能运维平台(Tesla)——大数据SRE实践》议题。为此云栖社区采访了这位在大数据SRE浸淫多年的技术专家。

以下是本次采访内容:

云栖社区:历时三年,你带领团队建设了Tesla智能运维体系,能聊聊什么是Tesla?为什么要建设它?

池枫:先回答为什么要建设Tesla,这个还要从2014说起,那个时期大数据在业界初露峥嵘,阿里巴巴内部大数据的业务也快速发展,产品种类,服务规模双双增长,并且产品的迭代周期极大缩短,各种异构的集群级大数据产品造成了多种多样的运维模式,给我们团队带来了相当大的压力,大家明显感到传统的运维方式,已经远不能满足快速的业务发展。如何破解,我们选择建设一个能够长期发展的自动化平台,这就是Tesla的由来。

什么是Tesla,我们希望它首先是一个创新、高效的自动化平台,还希望它是一个通过数据驱动由自动化向智能化转变的平台,借助Tesla体系的不断完善提升我们运维的价值。

云栖社区:Tesla开发过程中,有没有遇到什么困难,又是怎么解决的?

池枫:Tesla的建设过程对我们整个大数据SRE团队来说是一个非常巨大的机会和也是挑战。碰到的许多困难,最重要的一块就是团队内部产品研发的组织模式,换句话说我们对传统工具团队开发模式进行了优化,Tesla 分两部分的研发人员完成,一部分提供框架级别的服务开发,另一部分提供了业务逻辑实现的服务,我们摒弃了传统B2C模式,采用了C2C共享协作的开发模式共建我们的Tesla平台。这种方式使Tesla从无到有,从小到大,发展的速度大大加速,迭代的目标更加明确,质量控制更容易达成,也保证我们以现有的人力做到今天的规模的。

云栖社区:Tesla能解决哪些典型问题?哪些地方可能还需要继续完善?

池枫:Tesla 面向的场景都是最典型的的运维运营场景 ,我们产品几乎打通了所有关键的运维环节:例如应用环境管理 ,变更操作执行,需求智能处理,事件关联处理,故障分析诊断,运维数据挖掘。我们希望沉淀运维经验的决心非常坚决,因为我们认为这种沉淀好比是对运维的格式化存储,只有格式化的数据将来才能被机器所学习和挖掘,积累这样的数据的能力是智能化的关键。

所有我们正在建设的产品都仍然有很大的进步空间,尤其是与智能化相关的如:问题的分析、故障的预测、行动的决策,对我们来说仍然处在探索关键期,能够给与我们借鉴和帮助实践特别少,所以这块今年我们集中了团队中最优秀人员去整合我们运维、运营数据,期待在这块有突破性的成果。

云栖社区:目前Tesla内部的应用情况是?

池枫:Tesla目前服务所有的阿里大数据产品研发团队和运维团队。产品线覆盖ODPS ,HBase ,ADS,Galaxy,tt,datahub等集团核心的大数据产品,覆盖上十万级业务服务器规模,运营站点PV 5000+p/日,平台自动化事件:近百次/日,自动化时间近万分钟/日(此处的近万分钟是指单人顺序执行需要的耗时),是整个部门的运维工作的根基。 

云栖社区:Tesla未来的发展计划是什么?

池枫:关于Tesla未来发展方向 ,近1年的思考中已经非常明确:就是成为更+的智能化。

我们不仅希望在Tesla上运维事务丝滑平顺,而且希望自然人对整个业务产品线的决策影响越来越少,所有的服务运行,更依赖于对格式化数据的分析驱动。具体到落地详细的计划,我们会分两个方向齐头并进,分别为“内和外”,对内我们强调数据仓库的完善,运维模型训练,借助内部海量的数据资源完成我们智慧化演进。对外 我们会借助大数据专有云项目的推进Tesla在私有云场景 的企业化支持能力,并且我们会在2017年完成Tesla核心子产品集成版本的开源目标,希望能推动运维智能化做一份贡献。

云栖社区:你认为一个完善的大数据运维自动化体系应该具备哪些特征?其工作中的重点、难点是什么?

池枫:“完善”的定义各有所见 ,我理解一个体系必须发源于其服务的业务产品,能够灵活适应“变”和快速的实现“通”。抽象不同产品中各种运维环节,具备层次化服务产品结构,能够连接 资源、事件,人各个维度的产品体系。

如何设计一个能够兼顾多种异构的大数据产品的运维平台体系是首先要解决的重点,另一个是人的因素,传统Ops需要转型,Ops+Dev+Data 人才的聚集是完成智能化运维的充要条件。

78a770e80b677fe24453151eb66e51c34c60c071
想和阿里大数据SRE专家池枫面对面技术交流?快拿起微信扫码吧!


池枫演讲提纲:
  1.  大数据SRE 运维产品的发展变迁;
  2.  智能运维产品体系理念;
  3.  分享核心套件的设计思路,使用场景及案例展示;
  4.  对自动运维生态的生态的展望。
听众收益:
  1. 复杂运维事务自动化沉淀方案。
  2. 智能运维模式的实践案例。
欢迎报名,聆听干货: https://yq.aliyun.com/webinar/join/167
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
存储 运维 监控
什么是 SRE?一文详解 SRE 运维体系
什么是 SRE?一文详解 SRE 运维体系
638 1
|
8月前
|
Prometheus 运维 监控
直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路
监控告警在企业保障系统的稳定性和事故快速恢复的全周期链路中都是至关重要的一环。在新版本的 EasyMR 中袋鼠云开发团队也对监控告警功能进行了全新的优化,通过本文和大家分享监控告警功能的设计思路以及碰到各类问题痛点的解决方法。
103 0
|
2月前
|
存储 运维 监控
「笔记」某移动 SRE 运维体系交流
「笔记」某移动 SRE 运维体系交流
|
4月前
|
运维 Linux 程序员
嘘!偷窥鹅厂运维专家,让Linux内核奔跑起来不得不说的秘密
有这么一个故事,一个程序员去相亲,当女方问他的职业时,他说自己是一个底层架构工程师,女方听到“底层”两个字,很不屑地说:“底层啊,那你什么时候能升到中高层?男方听后不知该如何接话。在程序员的世界里,Linux 内核、底层其实是非常“高端”的内容,普通程序员需要在这个领域里积累多年,才能修炼到从事“底层”工作的层次。
|
4月前
|
运维 应用服务中间件 nginx
绝!阿里专家总结643页Nginx实战文档,不只运维和微服务
在互联网与我们生活已密不可分的今天,大规模、高性能的网站架构技术已成为每个互联网技术人员的必备技能。Nginx作为款开源的Web服务器软件,因其具有性能稳定、高并发、低内存耗用、高性能的处理能力等特点,而被广泛应用到国内外各互联网厂商的实际生产架构中。
|
4月前
|
运维 关系型数据库 MySQL
阿里大牛的595页MySQL笔记,透彻即系数据库、架构与运维
数据库运维的变革,经历从手工造到脚本化、系统化、平台化、智能化的转变,逐步实现DBA对数据库的规范化、自动化、自助化、可视化、智能化、服务化管理,从而保障数据库的安全、稳定、高效运行。
|
8月前
|
运维 安全 Linux
GitHub点击量已破千万!世界级运维专家手写:793页Linux实战笔记
我们知道Linux这玩意儿是在计算机上面运行的,所以说Linux就是一组软件。问题是这个软件是操作系统还是应用程序? Linux可以在哪些种类的计算机硬件上面运行?而Linux源自哪里?为什么使用Linux还不用花钱?这些我们都得先来谈—谈! 免得下次人家问你,为什么复制软件不会违法时,你会答不出来!
|
10月前
|
存储 运维 监控
大数据数据存储的搜索引擎Elasticsearch的集群运维的集群备份
Elasticsearch是一个可扩展的搜索引擎,可以在同一个集群中部署多个Elasticsearch节点,以提高性能和可用性。
58 0
|
10月前
|
存储 运维 监控
大数据数据存储的搜索引擎Elasticsearch的集群运维的集群监控
Elasticsearch是一个可扩展的搜索引擎,可以在同一个集群中部署多个Elasticsearch节点,以提高性能和可用性。
72 0