复杂网络架构下的网络故障智能处理——DC Brain之故障篇

简介: 本文PPT来自阿里巴巴产品经理何源(花名:荆杭)10月16日在2016年杭州云栖大会上发表的《复杂网络架构下的网络故障智能处理——DC Brain之故障篇》。

本文PPT来自阿里巴巴产品经理何源(花名:荆杭)10月16日在2016年杭州云栖大会上发表的《复杂网络架构下的网络故障智能处理——DC Brain之故障篇》。

网络是沟通世界的纽带,然而这个纽带却往往没有人们想象中的那么稳定。面对突如其来网络故障,网络工程师们经常会显得束手无策。与其他故障不同,网络故障的特殊性体现在1.体量大,经常涉及几万台网络设备和几百万端口2. 型号架构多,日志格式不统一,警告规则不统一 3.结构复杂,重复告警多 4. 自身依赖,监控系统本身运行在网络上。因此如何处理巨大的数据、不被海量的警告淹没、理清复杂的依赖关系和逻辑关系,是工程师们普遍关心的问题。

所以这里我们采用多元化、交叉覆盖的检测手段,根据可扩展、可自定义的规则并结合基于pagerank算法的告警收敛,利用告警监控系统冗余部署来检测网络系统异常。大体的思路是这样的:首先系统采集Syslog日志事件,并利用包含大量事件库的日志分类引擎来处理Syslog日志,最终再通过正则匹配使原本杂乱无章的系统日志变得简单明了。类似地,系统也会采集SNMP和Ping测事件,并且用包含对应规则库的规则引擎来分析处理这些事件。再经过引擎处理后,系统将根据告警等级和物理拓扑及协议拓扑将告警分发出去。

总结:大型的系统数据量每分钟可达千万级,因而基于spark streaming流式处理,spark graphX图算法这些单一的监控手段都会有失效的可能,所以要有多重手段。大数据不可怕,基础设施怕的是没有数据。所以既懂基础设施,又懂数据的人才很稀缺,将来会在市场上更具竞争力。

6d019db130e8660af2de1f9956cca6f0f331114e

d6bab1f3fd056bf64b352d7988a3ace8bfe5368f

b397a7f2b24ac63303703842bb58cf6b4008f00b

04f311cab7ac7879d8387bf7b5e64c4b1b0fa980

8b9a9265094aeeccec60897e813aacf9d0da8963

a8c93d95c43ee13ed36be550effeca739a402ea5

2554f6ad7e037837609ac35806a26f0f3f12665d

b542aa3570d0e8babe2f61ad8232ef14fa80c702

2b009e9d79def3c61ec7238e9604459f6a2adc8c

5da1fb9dab64657ad2230ba9ae5435a61d7cdda3

56ea148665b03e75e41225e68d91a651bcf239e8


相关文章
|
1月前
BOSHIDA DC电源模块的故障排除与维修方法
BOSHIDA DC电源模块的故障排除与维修方法 当DC电源模块出现故障时,可以按照以下步骤进行排除和维修:
BOSHIDA  DC电源模块的故障排除与维修方法
|
1月前
|
弹性计算 负载均衡 网络协议
这种情况可能是由于阿里云的API服务出现了短暂的故障或者网络波动导致的
【2月更文挑战第20天】这种情况可能是由于阿里云的API服务出现了短暂的故障或者网络波动导致的
70 1
|
2月前
|
运维
BOSHIDA DC电源模块如何故障排除与维修
BOSHIDA DC电源模块如何故障排除与维修 首先,进行故障排查前,需要了解DC电源模块的工作原理和基本构造。 DC电源模块通常由输入端子、输出端子、电感、电容、变压器、整流电路等组成。常见的故障包括输出电压异常、输出电流异常、过载保护触发、短路保护触发、输入电压异常等。
BOSHIDA DC电源模块如何故障排除与维修
|
1月前
|
消息中间件 存储 缓存
Kafka【基础知识 01】消息队列介绍+Kafka架构及核心概念(图片来源于网络)
【2月更文挑战第20天】Kafka【基础知识 01】消息队列介绍+Kafka架构及核心概念(图片来源于网络)
89 2
|
4月前
BOSHIDA DC电源模块的维护与故障排除
BOSHIDA DC电源模块的维护与故障排除 DC电源模块是用来提供直流电的设备,常见于电子设备、通信设备和工业控制系统中。为了保证其正常工作,需要进行维护和故障排除。以下是一些常见的维护和故障排除方法:
BOSHIDA  DC电源模块的维护与故障排除
|
2月前
|
机器学习/深度学习 测试技术 Ruby
YOLOv5改进 | 主干篇 | 反向残差块网络EMO一种轻量级的CNN架构(附完整代码 + 修改教程)
YOLOv5改进 | 主干篇 | 反向残差块网络EMO一种轻量级的CNN架构(附完整代码 + 修改教程)
128 2
|
1月前
|
Cloud Native 安全 网络安全
构建未来:云原生架构在企业数字化转型中的关键角色网络安全与信息安全:防御前线的关键技术
【2月更文挑战第30天】 随着数字转型的浪潮席卷各行各业,企业正寻求更加灵活、可扩展的解决方案以适应不断变化的市场需求。本文将深入探讨云原生架构如何成为支持这一转型的核心技术,分析其优势和挑战,并提出实施策略。云原生技术的采用不仅加速了开发过程,还提供了自动化运维、弹性伸缩等特性,为企业带来了前所未有的敏捷性和效率。然而,迁移至云原生架构也伴随着技术复杂性增加和安全风险的挑战。文章最后,我们将提供一系列最佳实践,帮助企业在采纳云原生技术的过程中规避风险,实现持续创新。 【2月更文挑战第30天】 在数字化时代,数据成为核心资产,而网络安全与信息安全则是维护这些资产不可或缺的屏障。本文深入探讨了
|
2月前
|
机器学习/深度学习 存储 设计模式
架构设计新范式!RevCol:可逆的多 column 网络式,已被ICLR 2023接收
架构设计新范式!RevCol:可逆的多 column 网络式,已被ICLR 2023接收
27 0
|
3月前
DC电源模块常见的故障和维修方法
1. 无输出电压:可能是输入电源故障、输出线路开路、输出电路短路等。维修方法包括检查输入电源是否正常工作、检查输出线路是否有损伤和修复短路等。
DC电源模块常见的故障和维修方法
|
3月前
|
安全
DC电源模块有哪些常见的故障和维修方法?
BOSHIDA DC电源模块有哪些常见的故障和维修方法?
 DC电源模块有哪些常见的故障和维修方法?