基础设施助力双11(六):看网络如何“自愈”

  1. 云栖社区>
  2. 博客>
  3. 正文

基础设施助力双11(六):看网络如何“自愈”

初商 2019-07-31 00:21:08 浏览382
展开阅读全文

概述

每年的双十一对阿里的网络都是一次严峻的考验。在双十一当天,阿里的网络必须承载来自于世界各地数以亿计的用户所带来的巨大流量,任何故障的影响力都会被成倍放大。尽管大家做了很多努力尽量去避免故障的发生,但是故障仍然还是会发生,尤如阿里现今的大体量。这个时候,快速可靠的的故障恢复机制就尤为关键了。随着网络体量的急剧扩大,以及架构的多样化发展,通过人工手段去恢复故障已经不能满足业务对网络高可用性、高可靠性的要求了。在这个过程中,自动化的故障恢复应运而生。

我们处理故障的主要流程是:监控采集->故障发现->根因定位->故障恢复

image.png

图1 自动恢复整体流程

丰富的采集

目前每天的数据采集量接近万亿级的水平,采集的类型包括日志、SNMP采集(路由器交换机性能指标采集)、AliPing采集(内网质量采集)、AliInternet采集(互

网友评论

登录后评论
0/500
评论
初商
+ 关注