云栖学习小组 + 关注
手机版

阿里百万主机安全管控演进分享

  1. 云栖社区>
  2. 云栖学习小组>
  3. 博客>
  4. 正文

阿里百万主机安全管控演进分享

云学习小组 2019-01-25 09:59:15 浏览671 评论0

摘要: 阿里拥有成千上万的业务群分布在全球各地,在运维行业里70%到80%的业务场景在阿里都可以见到。阿里现在的业务已经不能说是一家公司或者集团,阿里现在的叫法是“经济体”。

image

讲师介绍:

首先说一下我个人,我叫王建(铭智)。

不能说是第一代做运维的,应该算是1.5代了,因为2004年开始做运维行业,之前做的比较杂。现在很少看到SA、PE这种,像我以前什么系统工程师、应用工程师、开发监控、日志分析、架构,还有些海外的运维,这一整套基本上是我之前做的比较杂的。2015年的时候加入阿里,这三年一直是聚焦于在阿里巴巴的主机系统安全领域,同时也关注于运维效率。从某种意义上来讲,我见证了整个阿里巴巴主机演进的过程,所以接下来给大家分享一下这方面的内容。

image

今天的内容主要分为四部分:

  • 第一、现状介绍
  • 第二、主机安全管控演进
  • 第三、思考与总结
  • 第四、未来

image

1. 现状介绍

阿里拥有成千上万的业务群分布在全球各地,在运维行业里70%到80%的业务场景在阿里都可以见到。阿里现在的业务已经不能说是一家公司或者集团,阿里现在的叫法是“经济体”。

经济体一般是一个国家或者一个地区才有经济体,从这方面我想说的是它的业务形态已经不单单是家公司了,业务形态非常地复杂。这是对外公开的一张图,它是一个生态型的,涉及到方方面面。所以说在这种场景下对于安全的要求挑战也是蛮大的。

image

阿里拥有国内领先的百万规模主机体量,并且这个量级每年还有很大幅度的增加。这块我也问过国内的同行,私下了解过,目前的主机规模来说在国内还是领先的。这种场景下对于我们日常的安全管控还是挑战很大,不是一台两台,几百台几万台,是分布在全球总体管控的。

image

这块大家之前可能不太清楚,我们每年要面对国内外的审查特别多,我这边和他们打交道是比较多,我们的安全有一部分来源于他们,因为这个监管不合规会带来很多业务的障碍,比方说像ISO20071,每年都要来审查,SOX404,以及SOC2、C5、PCI-DSS、ITGC等。这审查刚开始我们都是被动的,所以这也是促使我们的动力。监管合规对我们来说是非常重要,银监、证监没事就要过来查一下。

image

上午听了一个同行的将说,腾讯也有一万五千人参与编码,在阿里的生产管理也有几万的技术人员参与,大家可能都是分布在全球各地,那这里的风险也是需要我们统一来把控。

image

阿里的三大战略,全球化、农村、语言,在全球化过程中业务范围越大,安全这块也必须要跟得上,对于我们的挑战就是边界问题、分布、人员办公带来的不确定性。

image

像阿里很多的应用已经是作为国民应用了,成为国家关键信息基础设施,每次遇到大问题的时候社会反映都是比较强烈的。刚才讲了第一部分,主要是业务规模化的场景,包括全球化给整个阿里经济体带来的威胁。

image

2. 主机安全管控演进

这块我们主要分为这么几个阶段:

主机安全,这个概念可能大家理解的不一样,主机安全到底包括哪些内容每个企业可能定义的不一样,对于阿里来说整个体系里面包括正向管控措施、逆向监测措施。在整个发展过程中主要经历了这样几个阶段,我刚接触的时候其实很多现状和之前的差不多

后来经历了系统化,就整个管控体系的落地;

体系化主要是数据联动、组合拳、正逆互动,最后达到安全闭环,然后体系化和智能化是现在在做的。

image

大家都会经历过这个阶段,注册密码可能随便给,比方说大家为了方便或者好记,是有关联含义的。体系化设计、生命周期管理,包括一些人员的操作,在操作过程中人员的一些误操作,能不能在这方面做一些防范,难免大家有时候状态不好,这时候能不能有措施防范。权限,像有人私自跨账号访问,对于重点系统的保护,这些问题其实都有。其实阿里之前的状态也是这样,我刚接手这块也是有很多问题的。

image

下面说一下在整个建设过程中参考的依据,这应该是大家比较熟悉的,控制论在各行各业都有应用的,其实很简单,输入输出里面两个东西,控制者和受控对象,用今天的话来说受控对象就是主机(服务器),控制者就是管控系统,管控系统对受控对象进行管控。其实在没有接触这个理论之前,大家都喜欢做正向管控建设,能管控它就好了,但其实会忽略下面的反馈。就说如何验证你前面做的有没有效或者是否全部覆盖,这个反馈就很重要,就说能知道有没有人在破坏你这个规则,有没有人逃逸在这个规则之外的。

image

下面就是权限模型,一个是RBAC一个是ABAC,我们是把这两个有机的结合在一起。

image

业务的全球化导致整个管控也是要全球化,比方说现在一些堡垒都是全球化部署,不是国内的战略,包括其他的监测也直接是全球覆盖。

image

下面就讲一下过程,0到1,正向管控系统建设,以及从入职到离职的全生命周期管理。在这里面还包括一些信息化,安全的东西光靠制度肯定是不行的,是需要系统来承载来实现的。

数据化,阿里最大的特点是在于基本所有的数据都会存项,这在阿里是作为保卫的资源,阿里是所有的业务数据化,所有数据业务化。这是说的整个正向建设的过程,刚才说的控制论图中正向建设的过程,当然在建设过程中也是一点一点的,并不是说一下子全部弄出来。

下面我们说一下反馈过程,反馈整个体系建立完之后导致体系化.

image

1到N。这主要包括两部分,逆向监测体系建设过程,如何评价现在是安全的,有一些手段能监测到它是否是安全的,哪些正常,哪些违规,或者哪些不在预期之内的操作,这是需要我们去构建的。今天来说反向监测体系是非常重要的,必须要有感知能力。逆向系统建设完之后,为什么说体系化,是和前面的产生联动,监测发生异常,前面去拦截阻断,这些管控手段是一整套体系中完成的。它是安全的闭环,不是脱节的,这是这几年我们一直在做的。

image

这是威胁治理的情况,这张图是真实的,前面有很多还是振荡波动的安全威胁,到后面就很平稳,这是最终的效果图。

image

刚才和大家简单回顾了一下我们安全管控的过程,这里面没有细讲,因为也是第一次和大家讲这个,我们也希望慢慢地把里面更细的部分拿出来给大家分享,整个管控的过程说实在也还有很长的路要走。

3. 思考与总结

运维的本质或者运维的核心大家可能放在这几个方面,到底哪个优先级高、优先级低,最终肯定是归在其中的一部分。

每个公司对这的看法是不一样的,初创公司可能更多关注的是效率和成本,当达到一定规模的时候安全和稳定性就会提出了,像阿里的当前规模体系下不能只关注效率和成本,稳定性是我们的重中之重,牵一发而动全身,稍微有点故障就会引起社会很大反响。

image

安全级部分,咱们在上一页的时候安全是独立的部门,从我个人看来安全它和其他的关系是非常密切的,并不是一个独立的部门或者独立的业务形态,安全它是可以为稳定性服务,减少很多的入侵或者破坏这种问题。安全可以驱动效率的变革,之前我们经常说安全和效率是矛盾体,越安全可能效率越低。

大家经常安检就知道,北京两会期间安检特别严,要花上平时好几倍的时间,现在很多像生物识别、人脸这种也可以。安全可以带来成本的节约,我最早做的是网游行业,大家知道网游行业是暴利行业,如果你刚上线是热门的话会遭到攻击,如果这时候能解决安全问题会节约很多的成本。像网游公测当天受到攻击的话那影响还是蛮大的,直接决定一个产品的成败。

image

安全手段如果能跟得上,它可以带来一些正向的成本。

我们普遍认为安全×效率=常量,我今天想说的不是上面这个,而是下面的安全×效率=常量×N,我们要通过安全机制的升级以及安全机制的变革来提升效率。过去各种验证,现在生物识别这么发达,那是不是可以引进来,带来一些体验和效率的提升。

image

安全不能被企业忽视,安全现在很好,曾经有个朋友也问我,他遇到一个问题,他在企业里是做安全的,但就有个担心说怎么在企业中做安全能被认可。其实我的看法是这样子,安全在国内很多企业中不被认可的,其实是很难被认可的,这是一个共识。可能国人的一些共性吧,条条框框是会被束缚,国人是不太愿意被束缚的,很多企业会首先选择效率,这是客观的现象。

第二点作为安全工作者,安全这块真的要反思给业务带来什么价值,最后决定你被认可的是到底带来什么价值,并且这个价值要能够持续运营。如果在一个企业里你做了很多的业务价值,最后还是不被认可的话,那我只能说这企业就不需要安全,我的建议说你可能需要换一家单位。确实是有这样的企业,它就是不重视这块,换句话说他就是没有安全的需求。就像电商一样,刷单刷评分这种,时间一长平台的信用就会受到影响。

还有个好处,现在安全环境是越来越好了,去年《网安法》颁布,现在出现问题企业要担责,业务主管也要担责。还有欧盟的GDPR,这也挺厉害,我相信挺多有海外业务的都会涉及到。GDPR很厉害,如果违反了信息安全最高罚两千万欧元,这个量是很可怕的。下面还有一些监管合规,现在国家的监管力度是越来越强,包括像未成年微信、阿里的金融体系,监管都是定准的,就在这种促使下安全还是向好来转变。

image

安全不能拖业务后腿,你在一个企业里做安全工作最差是这样的。

image

安全不能停留在制度上,员工服务器上不能这样不能那样,我相信现在很多还有这个东西,所以说在整个体系上我觉得大家不要用制度来执行,更多的还是要用策略和系统化来保障,这我们也在做很多的尝试,把以前制度上的东西变到实实在在的系统中。

image

安全的最高境界是无处不在,而又毫无感知。安全措施不应成为用户操作的障碍,而是用户信心的保证。会不会因为忽略或者不小心导致的一个故障,我说的“安全”和外面的“安全”不一样,运维操作安全也属于“安全”这个体系。是不是用户无意、有意的威胁把它做了,就用户不用考虑风险的问题,系统会有保障,这方向也是很好的,当然这里面也需要做很多事情。

image

这是阿里的九字方针,“轻管控、重监测、快响应”,现在管控要放松,你可以干很多事情,但背后有一套很完善的监测安全保障机制,在有问题的时候能够快速发现、快速响应,把重心放在后面了,而不是说之前就给你设很多条条框框,互联网业务条条框框太多,那很多机会、风投就过去了,更多是后面的监测。

image

这里面是安全的一些原则,我相信大家都听说过,集中原则、按需原则、最小权限原则。建设过程中最大的问题是做完之后别自己出现问题,要有一些容灾容错的考虑。用户权限随着用户的身份变化自动变动。

image

安全里面还有两个概念,safety和security,这两个我们都做了,做安全的人都能分开这两块的区别,其实我们做的是两块的综合体。

image

这是我们之前做的一个主机系统安全成熟度模型,L1是人工管理为主,有安全制度,无系统支撑,L2是安全制度完善,有部分数字化安全支撑系统。L3现在向L4完善,那L4强调的是无感、智能化的。

image

4. 未来的想法

未来的安全刚才也提了是无感,对用户一定要无感,这也是我们未来要不断思考的问题,如何做到用户无感但安全能力没有下降。第二个阶段是谷歌里提的比较好的,叫“零信任模型”。

image

大家可以随时随地在任何一个地方访问需要的资源、服务,可能圈在一个园区或者某个范围,就说这些东西已经全打破了,打破之前仅限于某个区域的特定访问,未来可能说大家随时随地都可以访问,但这个访问是安全的。还有就是无人化,我们也是在极力的推行无人化,尽可能人员少登录少操作。

但无人化这里我打了一个问号,这里面带来一个新的安全问题,系统与系统之间的访问如何安全?任何事情都两面性,一个新的东西出来肯定是会有缺陷的。下一个就是智能化,体验更好,这块也是我们未来一段时间需要尝试的。

image

未来的安全我认为可能会有这些关键词,智能化、机器智能、无感等,主动去构建一层防护。

image

本文为 GOPS 2018 · 上海站阿里专场 王建老师的分享整理而成。

原文发布时间为:2019-01-25

原文作者:王建

了解相关信息可以关注“高效运维”。

【云栖快讯】阿里巴巴小程序繁星计划,20亿补贴第一弹云应用免费申请,限量从速!  详情请点击

网友评论