10 人,2 个月 | 虾米音乐的监控体系升级之路

  1. 云栖社区>
  2. 阿里巴巴中间件>
  3. 博客>
  4. 正文

10 人,2 个月 | 虾米音乐的监控体系升级之路

中间件小哥 2019-08-22 15:53:51 浏览1142
展开阅读全文

背景

监控一直是服务端掌握应用运行状态的重要手段,经过近几年的发展,阿里虾米服务端目前已经有 100 多个 Java 应用,承担核心业务的应用也有将近 50 个,对于应用的监控配置也是因人而异。有的人配置的监控比较细,有的应用在经历了多人开发阶段以后,监控就逐渐疏于管理,有些应用的监控项最后修改时间只停留到 2 年以前,早已不适应业务的发展。

与大部分团队一样,虾米也有一个报警处理群,将内部的监控报警平台(如 Sunfire 等)的信息通过机器人投递到群中,由于监控项配置不合理、监控粒度较大,每天报警群都被几十条甚至上百条报警通知狂轰乱炸,长此以往大家对报警已经麻木,大部分报警也不会去处理。

基于这样的现状,虾米 SRE 团队(SRE全称Site Reliability Engineering,最早由Google提出。致力于打造高可用、

网友评论

登录后评论
0/500
评论
中间件小哥
+ 关注
所属云栖号: 阿里巴巴中间件