云监控之运维篇

简介: 正所谓“凡事预则立,不预则废.”,那么,当服务器上线后,我们如何预先知道服务器目前的健康状态,及时的去排除故障点呢? 此外,随着公司业务的增长,网站的访问量越来越大,如何快速定位到系统的性能瓶颈,有针对性地去提升服务器的硬件性能,为企业优化信息平台的投入成本呢? 云监控--你的好帮手。

一、服务器的日常监控

1.1 遇到的潜在问题

随着公司的发展,公司的业务量不断的增加,网站的访问量越来越大,如何快速定位到系统的性能瓶颈,有针对性地提升硬件性能,为企业优化信息平台的投入成本呢?

1.2 云监控如何解决

1.2.1 总体思路:

首先,需要安装云监控的插件;然后,对服务器的CPU、内存、磁盘、带宽等指标进行监控;最后,通过设置阈值告警。

当服务器的某项指标达到性能瓶颈时,会自动触发告警,并及时的通知到运维人员进行处理。实现日常运维里面的自动化告警。

1.2.2 详细步骤如下:

安装云监控插件


ec5af85ebf69032a5faec235976948e1be8fb2c6


18e7249a6e2685798dce2bd1165aede031f4c11d


自定义报警规则


fe7bc08933fcf6595305af553704a4f4c9d9b27d


6263f3ff5eb958b0fef37a6d6462a3375eb8a80c

df7ba60b0bc86d3be5a99c116bd23a6a3c3138d5e467505724c6667346c70ef1b25a2e0406bb11db


fbcfc87be37fcd7e446a6fe85bd7641a9743b49a


38975b809074605882c3d7d360e0b26be2d9d860

优化告警联系人设置



301e8c1d5f2df019cb65e3b01df49e61dc6a61f07d2b5056468e53f56e2694b89ee852596b4483c9


24d4836909513c03162becda1bd386c7fd7382c7

1.2.2  测试验证:

我们可以通过反向设置告警规则来触发告警,验证云监控是否可以正常告警。例如,将CPU的阈值设置成小于80%时触发告警等。由于操作比较简单,这里就不再赘述。

至此,我们便可以及时地发现服务器的性能瓶颈与异常状态。

二、服务可用性监控

2.1遇到的问题

当我们发现网站无法被访问时,其中可能存在的故障点有:

1.   服务器中的相关服务异常

2.   服务器到客户端的运营商网络异常。

接到报障信息后,我们需要一个个故障点去排查。一方面,我们需要检查服务器的监听端口和相关配置文件是否正常;另一方面,我们呢还需要去排查client—server这一段运营商网络是否存在异常等问题。我们才能定位到网站访问异常的故障点。步骤繁琐,效率底,不能快速定位问题。

2.2 云监控如何解决

2.2.1 总体思路:

使用云监控分别从内网和外网对服务的可用性进行监控,由于使用云监控进行内网进行监控时,跳开运营商网络异常这个故障点。所以我们指需要综合内外网的警情况,就可以快速定位到故障发生的位置。

2.2.2 实现步骤如下

1. 建立外网监控

fa3515eb3f9a153a9bf5e22c3e18fe2de3137fae


73c992d2f15fbf0f0f241ba08f6fbf95836270a1

a90a8f8153d51836115f8ee49cd5f7798eb19032


域名仅做举例,不要雷同哦


5b2f17a1cc0be5b4f14b6f06fcbe3347fecb6b6e

33b29240af7d2c6b94b98821df7fed5a5b75b667

e52997cbf33306922f78018a9539d30f1c6ade8a

2. 建立内网监控

8f4e1708fe7f047cbd1c89d62c4eaef0ab1e74b4


9e40f55dbba362dc47cc12795ed525a23075d3b3


582cd9a4932cdc5335b4eb36f7f523c6d8c7aaf4

981719dc93e2975ac3e457b1ed649124841b6931

3f77e6acc542713c277e8adb61d4a52da2e29eee

410a48a80a959264b00e075a8f7e2fde16c9da951d9a21e8abc2cd09bde933c4e4931f72fe116be4



注意:探测源和目标主机同需属于一个安全组。

3. 测试验证

更改安全组策略模拟运营商网络异常。

 在安全组中新增一条优先级更高的拒绝外网访问目标主机80端口的安全策略。

(这里仅做模拟测试,请勿在生产环境操作)

可以收到如下告警信息:

976f748ab0a8060b73cf9eb2fe199d24b8327309


20c76c0650467c4326f73ef20df20300ce0c34c3

与此同时,内网监控是正常的:

e7bbb23738e472af6508f21d228774ddd746c29d

小结:

如果我们只收到外网的监控告警信息,但是没有收到内网的告警信息,则说明故障点是在外网的网络运营商。针对运营商问题,可以在云监控上进一步查看受影响的区域。

II 将服务器关机模拟服务本身异常

收到如下告警信息

b7d2516c838ec185e237c402dc330062d52fb667

 

小结:

当我们收到内网的告警信息时,往往还会伴还会随着外网的告警信息。这就说明服务器的相关服务异常,这就需要我们登陆到服务器上进一步排查造成服务异常的原因。

 

综上所述,当我们只收到外网的监控告警信息时,说明故障来自外网。当我们同时收到内外网的告警信息时,则说明故障点来自服务器,需要到服务器上排查。


相关实践学习
RocketMQ监控/告警一站式搭建应用
RocketMQ监控/告警一站式搭建演示
目录
相关文章
|
3月前
|
运维 监控 安全
调用钉钉机器人API接口将堡垒机安全运维告警单发给运维人员
调用钉钉机器人API接口将堡垒机安全运维告警单发给运维人员
81 0
|
7月前
|
弹性计算 运维 监控
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
386 0
|
10月前
|
Prometheus 运维 监控
基于Prometheus和Grafana的监控平台 - 运维告警
基于Prometheus和Grafana的监控平台 - 运维告警
197 0
|
存储 消息中间件 Prometheus
基础云监控VS企业云监控
企业云监控是对基础版云监控的增强版本,针对企业客户的各种痛点,提供更丰富的上云监控解决方案
147 1
|
Prometheus 监控 Cloud Native
使用云监控进行跨账号监控
前言云监控的跨账号监控依赖资源目录RD(Resource Directory),RD的具体操作见其官方文档。需要前当前登录的账号是RD的主账号MA(Master Account)或者是云监控的委派管理员DA(DelegatedAdminAccount)才能进行跨账号监控数据管理。主账号MA无需进行任何设置,只需登陆云监控的控制台正常操作就行。但如果需要某个成员账号也能在云监控上管理其他账号的数据,
3117 0
使用云监控进行跨账号监控
|
存储 JSON 弹性计算
使用云监控实现本地日志监控
本地日志监控是什么?本地日志监控是指使用云监控的Agent在本地对日志进行格式化处理,然后将处理后的格式化数据上报到云监控的指标仓库。而不用上报原始日志。在本地处理日志(而非上报原日志)有几个重要的理由:1,上报原始日志需要消耗大量的云端存储和网络IO,甚至为了查询还需要创建索引,费用不低;2,部分场景下的原始日志涉及到商业数据,不便上报,如订单信息,客户信息等。本地日志被处理成指标数据上报到指标
654 0
使用云监控实现本地日志监控
|
SQL 机器学习/深度学习 运维
这才是可观测告警运维平台——20个SLS告警运维场景
本文以20个SLS告警运维场景说明可观测告警运维平台的痛点需求。
1616 0
这才是可观测告警运维平台——20个SLS告警运维场景
|
监控 机器人
利用阿里云-云监控对网站进行监控
利用阿里云-云监控对网站进行监控
867 0
利用阿里云-云监控对网站进行监控
|
运维 DataWorks Shell
什么是DataWorks运维助手?
运维助手为您提供在独享资源组上进行新建、执行和删除命令的工具,以及查看命令执行结果、环境命令基线编排等操作的功能。
814 0