一分钟了解阿里云产品:云监控

  1. 云栖社区>
  2. 博客>
  3. 正文

一分钟了解阿里云产品:云监控

hayden822 2016-03-11 16:18:35 浏览5443
展开阅读全文

一、             概述

 

阿里云发布的产品种类齐全,今天让我们一起来了解下云监控这款产品吧。

 

什么是云监控呢?

 

云监控(CloudMonitor) 是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于收集获取阿里云资源的监控指标,探测互联网服务可用性,以及针对指标设置警报。

 

 

那么,云监控有什么优势呢?

 

  • 云监控服务无需特意购买和开通,您注册好阿里云账号后,便自动为您开通了云监控服务,方便您在购买和使用阿里云产品后直接到云监控查看产品运行状态并设置报警规则。
  • 云监控为每个监控项都展示了清晰易读的监控图表,您打开相应产品监控页面后,即可一目了然的查看到该产品的所有监控项运行状态。
  • 云监控还为您提供了监控项的报警服务。您在为监控项设置好合理的报警规则和通知方式后,一旦发生异常便会立刻为您发出报警通知。

 

 

可能您会问到,“我处在什么样的应用或服务场景时,可以选择云监控呢?”这里介绍下云监控的常见应用场景。

 

  • 云服务监控:您购买和使用了云监控支持的阿里云服务后,即可方便的在云监控对应的产品页面查看您的产品运行状态、各个指标的使用情况并对监控项设置报警规则。
  • 日常管理场景:您在日常管理阿里云产品时,直接登录云监控控制台,便可方便的查看各个云监控的运行状态。云监控正在接入更多云服务。
  • 及时处理异常场景:云监控会根据您设置的报警规则,在监控数据达到报警阈值时发送报警信息,让您及时获取异常通知,查询异常原因。
  • 及时扩容场景:对带宽、连接数、磁盘使用率等监控项设置报警规则后,可以让您方便的了解云服务现状,在业务量变大后及时收到报警通知进行服务扩容。

 

站点监控服务目前提供8种协议的监控设置,可探测您站点的可用性、相应时间、丢包率。让您全面了解站点的可用性并在异常时及时处理。

 

自定义监控补充了云服务监控的不足,如果云监控服务未能提供您需要的监控项,那么您可以创建新的监控项并采集监控数据上报到云监控,云监控会对新的监控项提供监控图表展示和报警功能。

 

 

云监控典型特性介绍:

https://www.aliyun.com/product/jiankong/?spm=5176.1897332.3.44.l8lgN4

 

 

 

二、             技术点(云监控五大热点技术问题分析)

 

在上一篇文章中,我们为大家介绍云监控的概况,云监控(CloudMonitor) 是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于收集获取阿里云资源的监控指标,探测互联网服务可用性,以及针对指标设置警报。那在使用过程中,经常遇到的热门技术问题有哪些呢?

 

站点监控:

https://help.aliyun.com/document_detail/cms/User_Manual/User_Manual/Site_Monitor.html?spm=5176.775975120.6.91.udOLEx

 

云服务监控:

https://help.aliyun.com/document_detail/cms/User_Manual/User_Manual/Service_Monitor.html?spm=5176.doccms/User_Manual/User_Manual/Site_Monitor.6.92.omwsfz

 

自定义监控:

https://help.aliyun.com/document_detail/cms/User_Manual/User_Manual/Custom_Monitor.html?spm=5176.doccms/User_Manual/User_Manual/Service_Monitor.6.93.HWSht7

 

报警规则:

https://help.aliyun.com/document_detail/cms/User_Manual/User_Manual/Alarm_Rule.html?spm=5176.doccms/User_Manual/User_Manual/Custom_Monitor.6.94.Mmu1Rq

 

事件订阅:

https://help.aliyun.com/document_detail/cms/User_Manual/User_Manual/Message_Subscribe.html?spm=5176.doccms/User_Manual/User_Manual/Alarm_Rule.6.96.yXSU1T

 

 

 

希望上面的内容,能够对大家有所帮助。

 

 

 

三、             体验(使用云监控的心得体会)

 

用了一段时间云监控,感觉总体做的非常不错,基本可以满足大部分监控的需求。

 

1 安装监控脚本

 

linux、CentOS、OpenSUS系统: 

a).wget http://update.aegis.aliyun.com/download/quartz_install.sh

b).chmod +x quartz_install.sh  

c).sh quartz_install.sh

 

安装后的代码位置在:

/usr/local/aegis/aegis_quartz/

可能会出现提示sampler.py没权限的情况,需要执行: 

chmod +x /usr/local/aegis/aegis_quartz/libexec/default/sampler.py

 

 

2 常用的监控内容

a) 网站监控,一般就是看网站挂了没有,一般用“站点监控”就行,把自己的站点url写到http监控里面就ok了。

b) 进程监控,主要是看常见的服务挂了没有。用“云服务监控”,

点进去填写进程名就可以了,如

 b91bc9980d1b74fcf4d55d8fdd5cd0578499f899

434fa7d13f6e00a4d27983b7a5fee7cd113f9537

 

 

如果apache的服务就是/usr/sbin/httpd。 具体用ps  aux命令,看最后一列就行。阿里云服务器自己安装apache,访问量大偶尔会挂掉,then最好监控下。在“进程数”那个tab可以看到具体的监控数据。

 

 

对应的添加报警规则,一般是设置最小值=0 报警即可。

 

 

3 自定义监控

 

自定义监控示例(python) 下载地址:

http://imgs-storage.cdn.aliyuncs.com/help/jiankong/demo.py

 

自定义监控示例 下载地址:

http://imgs-storage.cdn.aliyuncs.com/help/jiankong/demo.sh

 

按照这两个例子改,python的没问题,但sh那个好像有问题。python的数据有上报后,sh那个好像才好用。

修改后注意chmod +x 增加执行权限。sh那个可以直接执行,./demo.sh

如果没有问题,会什么都不提示,如果有问题,会提示你具体的错误。

 

修改的时候,注意和web上填写内容的对应关系:如我填写的:

5df8c280f9de376354b6a35b38a58cf20b949bb5

 

对应的上传数据就是:

metrics='[{"dimensions":{"machine_name":"spider_master"},"unit":"Count","metricName":"redis_thread","timestamp":'"$timestamp"',"value":'"$value"'}]'

 

其中:

“监控项名称” 对应“metricName”

"字段信息" 对应 “dimensions”,“machine_name”就是你在页面中填写的 “字段信息” 对应的内容。

“machine_name”对应值是你代码里面自己定义的,在web页面中没有对应的,这个注意下就行,这主要是区分是谁提交的这个数据。

建议在web填写界面上写清楚,具体的对应关系,要不 "字段信息" ===》 “dimensions” 这个对应太费解了。

 

 

将编写好的脚本放到

/usr/local/aegis/aegis_quartz/libexec/user/

 

然后添加即可:

/usr/local/aegis/aegis_quartz/aegis_quartz  -e "AddTask [0 0/1 * * * ?] user/demo.py"

 

查询:

/usr/local/aegis/aegis_quartz/aegis_quartz  -e "GetTask“

 

删除

/usr/local/aegis/aegis_quartz/aegis_quartz  -e "RemoveTask [0 0/1 * * * ?] user/redis_monitor.sh"

 

 

对应的添加报警,一般是设置最小值=0 报警即可。但注意,没有上报数据前,添加报警规则是没用的,那个页面会报错。

 

以上就是我使用云监控的一点心得体会。

 

 

如果你想详细了解云监控,请访问:

https://bbs.aliyun.com/read/164162.html?pos=2

 

 

 

体验(阿里云自定义监控配置体验)

 

阿里云提供自定义监控SDK,这有助于我们定制化的根据自身业务来做监控,下面我就根据业务需求来介绍一个简单的自定义监控配置。

 

 

阿里提供了2个版本的自定义监控接口:

 

自定义监控SDK(python版) :cms_post.py

自定义监控SDK(bash版) :cms_post.sh

 

本文使用shell版本做演示。

 

这里说下我的简单需求,我们需要监控ECS服务器中tomcat的进程是否存在,如果小于1,就说明tomcat进程关闭,然后根据设定的报警规则报警。

 

首先我们需要在阿里云自定义监控页面建立一个自定义监控,如下图:

 

 

1、添加自定义监控

d7c8303a1a1866a6f4182cf93a0fa4885008381a

 

 

2、定制脚本

 

我制作的调用自定义SDK的脚本内容如下:

9f0bbb9ec2eba5b8e27287be9381debf6a10fe5e

 

给予脚本执行权限

chmod +x cms_post.sh tomcat_process_check.sh

 

 

3、配置调度任务

如果是利用阿里云监控自带的调度任务,那么我们需要将脚本放置到制定位置:

e642853e4964dea99407f1216c3597a697191702

 

需要用户注意的一些事情:

 

1)         aegis_quartz 进程请匆停止,系统的监控数据采集是通过 aegis_quartz 完成。

2)         aegis_quartz 程序的调用请使用绝对路径,如 linux 环境下

 

/usr/local/aegis/aegis_quartz/aegis_quartz

3)         aegis_quartz libexec/default 下面的脚本是内置的监控数据采集脚本,请用户匆

 

修改。

 

4)         用户的监控数据程序只能放在 libexec/user 目录下面;上面添加任务与删除任务

 

的示例中,脚本程序的路径写的即是相对路径。因此,用户在命令行中的脚本路径

 

只需要填写成 user/xxx 即可。

 

5)         关于任务的执行频率,是基于标准的 quartz 表达式,用户按照规范填写即可。脚

 

本的监控数据上报频率请与云监控控制台中设置监控项【上报频率】保持一致(控

 

制台支持的频率是 1 分钟,5 分钟,15 分钟),若修改上报频率请保持控制台与

 

脚本一致,否则监控数据处理会不准确。

 

 

4、配置报警

 

然后我们设置报警规则,在报警管理如图:

4ded78a5b4357b66a4a9f841d941710d2eea5195

这里需要注意,字段的值一定要与脚本中字段的值一致,否则即使监控的值触发了你的报警规则,状态依然是正常的。

 

 

下面就是我收到阿里云的短信报警信息,上报频率5分钟:

 

【阿里云】您监控tomcat的f45966d***e60d在11:10发生报警,实例:(server07-tomcat-stop),值为0个,请登录云监控平台查看。

 

【阿里云】您监控tomcat的f45966d***e60d在11:15发生报警,实例:(server07-tomcat-stop),值为0个,请登录云监控平台查看。

 

配置成功。

 

 

如果您想详细了解云监控,请访问:

http://www.tuicool.com/articles/ayYnquU

 

 

数据聚合分组:新一代系统监控的核心功能:

https://bbs.aliyun.com/read/260875.html?spm=5176.bbsl216.0.0.ZLOG3x

网友评论

登录后评论
0/500
评论
hayden822
+ 关注