封神榜:智能运维服务助手

  1. 云栖社区>
  2. 阿里云SRE技术社区>
  3. 博客>
  4. 正文

封神榜:智能运维服务助手

阿里云SRE团队小编 2020-05-29 14:56:51 浏览466

封神榜是SRE团队提供的从业务、产品、安全、故障四个维度对项目进行全方位监控的运维服务工具,可实现为不同关注点的客户提供问题、故障、性能、容量、优化建议等运维内容推送。帮助现场第一时间发现问题与故障并量化,提高复杂问题定位与处理的效率,补全云平台监控视角与部分运维能力的缺失,可以自助报告的方式使客户对云平台运行情况有全面的了解。封神榜定义了现场负责不同工作的机器人,作为现场服务的智能助手,通过SRE方法提升并标准化运维服务底线,提供更优质的智能主动服务,帮助客户保障业务稳定性,实现业务价值。

1 功能定位

  • 稳定性是基础:被动响应转变为主动监控,提前预知可能导致故障的问题,故障时快速排查定位解决。
  • 增强运维服务:自动化的优化报告、运维报告、容量报告等方式,减少人工收集信息的工作,自动化为主。
  • 补全监控短板:提供用户视角监控,弥补客户更关注的业务多维度视角内容,自动推动关键指标数据,全方位地为项目稳定运行保驾护航。

2 四大视角服务目标

2.1 业务视角

为客户提供性能、容量、异常等事件级别的预警、报警,帮助客户自发现应用问题,进行优化。

2.2 云平台视角

通过预警、报警、播报的模式,提高云平台监控的全面性、时效性、易用性。

2.3 客户视角

定期推送实例的容量报告、性能报告、优化报告、云平台运行日报周报等。
通过主动性运维,帮助客户进行优化,通过服务的方式输出运维效果。

2.4 故障视角

对故障SLA量化,定义、监控、告警,第一时间发现云平台与业务故障。
_1
图1:

3 应用实践

3.1 MQ实例监控

场景:在某项目中,客户需要获取MQ最新的消费情况,并对MQ集群的空间大小进行监控。
方案:使用封神榜建立定制化采集能力,通过封神榜client采集MQ监控信息,封神榜server端汇聚告警信息推送钉钉告警。
test
test

图2:MQ实例监控效果展示

3.2 安全事件告警

场景:专有云项目中云盾告警较多,需要盯屏查看,容易忽略告警信息。
方案:由封神榜client实时获取云盾告警数据,出现告警立即发送到告警群。
test
test

图3:安全事件告警效果展示
封神榜相关功能,仍在不断优化中,我们将以提供优质运维服务为目标,稳定运行为基础,为客户提供更多服务,敬请期待!

作者:郭雷

阿里云智能GTS-SRE团队技术服务经理

曾就职500强与民航系统内,多年数据中心、云计算、大数据运维工作经验,擅长灵活运用多种手段解决复杂场景问题。现就职于阿里云智能GTS-SRE团队,负责中国邮政、医保局、国家气象局、电力等项目。

我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。
_