基于Tag的自动化监控方案

简介: 简介: 关键词: 云监控,Tag,分组,应用分组,自动监控,redis监控,cloudmonitor-group,自动发现 随着企业云资产越来越多,每天生产销毁变更的资源也不在少数,企业用户对这些资产的管控难度也越来越大,尤其是监控领域。

打个Tag就完成监控了?--使用监控的新姿势

关键词:

云监控,Tag,分组,应用分组,自动监控,redis监控,cloudmonitor-group,自动发现

背景

随着企业云资产越来越多,每天生产销毁变更的资源也不在少数,企业用户对这些资产的管控难度也越来越大,尤其是监控领域。每生产或者销毁一个实例,就要人肉为其配置管理相关监控报警,这需要非常大的人肉管控成本,直接block了用户使用云监控,从而给用户的可用性带来威胁。

随着的TAG的成熟,很多企业开始使用TAG来实现资源的分类、运维、财账等。基于TAG的运维监控,也是其中非常重要的一个场景。因此tag和云监控打通,将能够实现基于TAG的自动化监控,只要用户打上tag,就能够自动设置上相应的监控,是很多大用户非常期待的,这将有助于用户大大降低监控管理成本。

先满足,让用户资源能够被监控到这样一个最基本的诉求。

方案

云监控中有应用+应用分组的资源管理模型,可以实现跨region,跨产品的资源监控管理。同时,基于应用分组+监控模板,可以对一组资源快速实现监控覆盖,甚至是自动化监控。

然而,对于大用户来说,以头条为例,大几万的资源,对这些资源的分组也达到几千个,如果这些资源是通过人肉方式创建,几乎是不可想像的。好在一些用户已经通过tag,将这些资源作好了分组。我们需要做的是,将这些分组自动对应到云监控的应用分组,自动的带上监控。

综上,tag和云监控打通将给用户带来极大的便利。

详解

目前云监控和TAG服务集成,支持了两种通过TAG完成监控的方式,来满足不同用户的需求:

一,给资源打下固定的Tag键:cloudmonitor-group

这个tag键对应的所有值,都会自动创建一个云监控的应用分组,在分组中可以提供资源使用率的图表,以有分组维度的监控管理。

image

如上图所示,一共创建了两个TAG,一个Key:cloudmonitor-group value:为空,另一个key:cloudmonitor-group,value:test。
两个tag的value分别创建了一个监控的应用分组,创建分组时,默认使用的监控模板名为:‘’常用基础模板“,默认使用的报警联系人组为:”云账号报警联系人“。

分组创建完成后,用户可以根据需要,手动修改监控模板和报警联系人。

二,通过指定的TAG key来完成监控:

登录云监控控制台,在应用分组菜单中创建应用分组:
image

image

如图:可能通过指定的tag key来创建分组, 并支持过滤指定的tag值,如需要把tagkey=owner,tagvalue包含“开发”的所有tag值创建分组。
image

同样,默认使用的监控模板名为:'常用基础模板',默认使用的报警联系人组为:'云账号报警联系人'。

用户可以根据需要,手动修改监控模板和报警联系人。

另外,目前云监控也支持按实例的名称来实现对资源的自动发现,比如创建一个分组,将名称中包括'dev'的实例自动加入分组,

总结:

使用TAG和名称动态匹配的方式的好处是,创建一个分组后,以后创建的所有符合条件的实例,都会自动发现自动加入分组,自动被监控,从而大大降低监控配置的成本。

  1. 目前Tag监控,只支持ecs(只支持实例,不支持网卡,磁盘等),rds,slb,redis四款产品,其他产品还需要再等待一段时间。
  2. 目前一个分组里每个产品,最多只能支持3000个资源。超过3000个,不会加入分组中,顺序是随机。
  3. 创建完分组,分组聚合的监控数据,需要等待5分钟左右的时间,才会看到分组级别的数据图表。
  4. 创建完分组,具体的分组以及分组里的报警规则,会在后台异步创建,所以也会有几分钟的延迟。
  5. 目前基于TAG创建分组都是通过订阅tag键的方式实现的,因此,后续这个tag键新创建的值,只要满足规则匹配条件,就会自动创建出一个分组。
  6. 分组名称的规则是:TagKey-TagValue-1,用户可修改。

后续计划:

云监控的分组会继续和资源组,财务单元等企业管理方式打通,提供更多的监控视角和资源使用率视角。
同时,也会支持按分组进行授权,以帮助企业完成精细化管理的需求。

关联阅读

Tag监控: https://yq.aliyun.com/articles/740089?spm=a2c4e.11153940.0.0.2cc48cafsTfmrz
redis的自动化监控:https://developer.aliyun.com/article/742445?spm=a2c6h.13148508.0.0.e1364f0eViWuKT

相关实践学习
RocketMQ监控/告警一站式搭建应用
RocketMQ监控/告警一站式搭建演示
目录
相关文章
|
4月前
|
XML Prometheus 运维
自动化监控有哪些开源系统
自动化监控有哪些开源系统
66 1
|
1月前
|
机器学习/深度学习 数据采集 运维
高效处理异常值的算法:One-class SVM模型的自动化方案
高效处理异常值的算法:One-class SVM模型的自动化方案
28 1
|
2月前
|
监控 测试技术 API
自动化测试工具与电脑桌面监控软件的集成:Selenium与Python的无缝整合
在当今数字化时代,软件质量保证是每个软件开发团队都必须面对的重要挑战之一。自动化测试工具和电脑桌面监控软件的结合,为开发团队提供了一种有效的方式来确保软件的稳定性和性能。本文将介绍如何利用Python编程语言中的Selenium库,与桌面监控软件进行无缝整合,以实现对应用程序的自动化测试和桌面监控。
184 5
|
2月前
|
监控 Java 持续交付
内部网络监控软件的Groovy应用:持续集成与部署的自动化监控
在当今高度数字化的环境中,对于内部网络的监控变得至关重要。为了保证系统的稳定性和安全性,监控软件的自动化变得越来越必要。本文将介绍如何利用Groovy编程语言实现持续集成与部署的自动化内部网络监控软件,并通过代码示例展示其实现方式。
252 3
|
3月前
|
运维 监控 测试技术
ansible 自动化运维监控方案
本文介绍如何利用ansible实时或自动采集受控主机的信息
|
4月前
|
数据采集 Web App开发 前端开发
前端自动化UI测试的完整方案
前端自动化UI测试的完整方案
131 0
|
5月前
|
监控 数据管理 Shell
Shell脚本编写:自动化监控上网行为软件的数据备份与恢复
在今天的数字时代,监控上网行为软件变得越来越重要。无论您是个人用户还是企业,了解和管理上网行为数据对于网络安全和资源优化至关重要。本文将介绍如何使用Shell脚本编写一个自动化数据备份与恢复系统,用于监控上网行为软件的数据,以及如何自动将这些数据提交到网站。
158 1
|
6月前
|
运维 监控 Python
使用Python轻松自动化电脑监控软件的部署
在数字化时代,计算机监控软件是确保系统正常运行的关键组成部分。无论是家庭用户还是企业,都需要一种简便的方法来监控计算机的性能和稳定性。本文将向您介绍如何使用Python轻松自动化电脑监控软件的部署,通过示例代码来演示如何实现这一目标。
159 0
|
8月前
|
运维 监控 Linux
【运维知识进阶篇】zabbix5.0稳定版详解6(zabbix自动化监控:自动发现+自动注册+监控项目主动式)(下)
【运维知识进阶篇】zabbix5.0稳定版详解6(zabbix自动化监控:自动发现+自动注册+监控项目主动式)(下)
104 0
|
8月前
|
运维 监控 数据库
【运维知识进阶篇】zabbix5.0稳定版详解6(zabbix自动化监控:自动发现+自动注册+监控项目主动式)(上)
【运维知识进阶篇】zabbix5.0稳定版详解6(zabbix自动化监控:自动发现+自动注册+监控项目主动式)
165 0

热门文章

最新文章