阿里搜索业务AIOps智能运维实践综述

  1. 云栖社区>
  2. AliDataOps>
  3. 博客>
  4. 正文

阿里搜索业务AIOps智能运维实践综述

KB小秘书 2019-07-25 22:41:00 浏览555
展开阅读全文

随着搜索管控的统一,对智能运维能力也提出了新的要求,如何用同一套解决方案同时解决各系统的痛点问题做到AIOps能力复用,上篇文章已经介绍过hawkeye优化大师及torch容量评估的实践,本篇文章主要介绍下我们在异常检测,根因分析,冷数据及僵尸应用治理上的实践,各项实践也都取得了预期的效果。

下面分别介绍下以上问题我们的解决方案和进展。

异常检测

背景:
目前搜索系统的监控是基于规则的阈值报警,面对周期性指标,毛刺和稀疏数据等复杂场景难以适用,导致大部分指标报警泛滥,给用户带来很大的困扰,于是我们和kmon监控同学基于tisplus搜索业务平台top报警场景联合达摩院算法尝试增加异常检测进行智能报警治理报警泛滥问题。

解决方案:

image.png

(1)管理员在烽火台监控平台给指标配置异常检测算法及参数

(2)kmon-apiserver会定时同步烽火台报警配置

网友评论

登录后评论
0/500
评论
KB小秘书
+ 关注
所属云栖号: AliDataOps