复杂网络架构下的网络故障智能处理——DC Brain之故障篇-阿里云开发者社区

复杂网络架构下的网络故障智能处理——DC Brain之故障篇

2016-11-03 3352

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文PPT来自阿里巴巴产品经理何源（花名：荆杭）10月16日在2016年杭州云栖大会上发表的《复杂网络架构下的网络故障智能处理——DC Brain之故障篇》。

本文PPT来自阿里巴巴产品经理何源（花名：荆杭）10月16日在2016年杭州云栖大会上发表的《复杂网络架构下的网络故障智能处理——DC Brain之故障篇》。

网络是沟通世界的纽带，然而这个纽带却往往没有人们想象中的那么稳定。面对突如其来网络故障，网络工程师们经常会显得束手无策。与其他故障不同，网络故障的特殊性体现在1.体量大，经常涉及几万台网络设备和几百万端口2. 型号架构多，日志格式不统一，警告规则不统一 3.结构复杂，重复告警多 4. 自身依赖，监控系统本身运行在网络上。因此如何处理巨大的数据、不被海量的警告淹没、理清复杂的依赖关系和逻辑关系，是工程师们普遍关心的问题。

所以这里我们采用多元化、交叉覆盖的检测手段，根据可扩展、可自定义的规则并结合基于pagerank算法的告警收敛，利用告警监控系统冗余部署来检测网络系统异常。大体的思路是这样的：首先系统采集Syslog日志事件，并利用包含大量事件库的日志分类引擎来处理Syslog日志，最终再通过正则匹配使原本杂乱无章的系统日志变得简单明了。类似地，系统也会采集SNMP和Ping测事件，并且用包含对应规则库的规则引擎来分析处理这些事件。再经过引擎处理后，系统将根据告警等级和物理拓扑及协议拓扑将告警分发出去。

总结：大型的系统数据量每分钟可达千万级，因而基于spark streaming流式处理，spark graphX图算法这些单一的监控手段都会有失效的可能，所以要有多重手段。大数据不可怕，基础设施怕的是没有数据。所以既懂基础设施，又懂数据的人才很稀缺，将来会在市场上更具竞争力。

6d019db130e8660af2de1f9956cca6f0f331114e