《构建高可用Linux服务器 第3版》—— 1.6 用开源工具Nagios监控Linux服务器

简介:

本节书摘来自华章出版社《构建高可用Linux服务器 第3版》一 书中的第1章,第1.6节,作者:余洪春 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.6 用开源工具Nagios监控Linux服务器

1.6.1 CentOS 5.8下的监控工具

在开源系统CentOS 5.8下有许多监控工具,比如实时监控系统状态的Nagios,还有监控网络流量的Cacti和MRTG,以及我个人比较喜欢的NTOP和Iptraf;另外,在CentOS 5.8下也有许多强大的命令行可用于监控系统状态,大家可以在Google上搜索以了解其具体用法。

1.6.2 Nagios应该监控的服务器基础选项

经过工作实践,我们认为Nagios应该监控服务器的参数有如下几个方面:

主机存活的状态:Nagios采用通过ping来实现对主机是否存活的检测机制。

系统load值:系统load值的最关键含义是CPU运行中等待的数量,从侧面反映了CPU的繁忙程序,只不过load值并不直接等于等待队列中的进程数量。

CPU使用率:CPU使用率和系统load值一样,从另一个角度反映了CPU的总体繁忙情况,只不过它所提供的信息更为详细,如当前空闲的CPU比率、系统占用的CPU比率、用户进程占用的CPU比率、处于I/O等待的CPU比率等。

磁盘I/O量:磁盘I/O直接反映了系统硬盘繁忙情况,特别对于数据库这种以I/O操作为主的系统来说,I/O的负载将直接影响到系统的整体响应速度(尤其是作为数据库服务器而言,监控的意义重大)。

swap进出量:swap的使用主要表现了系统在物理内存不够的情况下使用虚拟内存的情况。有的人在观察内存情况时总是走入误区,在“free-m”中应该关注swap,而非free。

网络流量:特别作为数据库系统,网络流量也是一个不容忽视的监控点。毕竟数据库系统的数据进出量比普通服务器要大很多;当然,如果是非数据库服务器,网络流量成为瓶颈的可能性还是比较小的。

僵死进程的监控:这项指标的监控意义我就不多说了,而且这在Nagios中已经作为系统默认内容存在了。

在LVS+Keeepalived或Nginx+Keepalived中,由Keepalived产生的VIP应该重点监控,毕竟许多系统和网站都是将此内网地址由防火墙映射成为公网地址的,相当于整个网站或系统的进口,其重要性不言而喻;另外,如果网站架构里有DRBD+Heartbeat,也强烈建议监控Heartbeat产生的VIP地址。

数据库MySQL的主从复制状态,MySQL的replication是一个异步同步的过程,在很大程度上会受到网络、硬件停电、主键冲突等方面的影响,所以监控的意义不言而喻。

1.6.3 工作中的Nagios使用心得

下面总结一下在工作中使用Nagios的心得。

网站运维每天的工作重点之一就是监控网站的实时状态,所以需要时时监控。这里跟大家介绍一个监控系统主机及服务Nagios系统实时提醒的Firefox插件,很实用。如果上班时需要实时关注监控服务器主机及服务的Nagios系统,就得一直开着一个网页,然后让页面自动刷新,感觉有点麻烦,而且浪费资源。虽说朋友分享了一个Nagios辅助小软件比较方便,可以将其最小化到任务栏,有异常时会出现浮动提示窗口,但是我一向喜欢尽量将所有东西都嵌入浏览器中进行操作,所以更希望能找到一款Firefox插件来实现类似于此辅助软件的功能,后来终于找到了,这个插件即Nagios Check插件。它的安装方法非常简单,这里就不多费篇幅了,效果图如图1-4(大家注意Firefox最右下角的小图标)所示。

screenshot

业务网站最好置于自己的机房内,因为Nagios对于网络的依赖很大。它依靠ping来检测服务器是否存活,如果网络情况不好或因别的原因造成Nagios检测不到监控服务器,会造成一个啼笑皆非的问题,它会狂发报警短信和邮件,说服务器已宕机,属于Critical情况。但事实上此服务器情况良好,仅仅是跟Nagios机器的网络不通而已,如果遇到这种情况希望大家注意甄别。
由于Nagios是部署在内网中的,所以它只能对内网的所有机器进行监控。由于我们的网站都是将内网机器的IP映射到防火墙的公网地址,对此Nagios就无能为力了,这个时候我们可以购买类似于AlertBot的实时扫描服务器来扫描我们的商务网站,并配合Nagios对网站进行实时监控。如果你的邮箱同时收到AlertBot和Nagios的报警,一定要慎重对待,这种情况百分百就是内网机器出现故障或者系统负载超过了Naiogs设定的阈值。
如是公网的一些重要业务或机器也有监控需求,我们可以将Naiogs部署在稳定的双线机房或BGP机房中监控。
如果认为在Nagios下部署短信猫或飞信麻烦,可以尝试中国移动提供的免费139邮件短信业务。使用免费的邮件短信业务其实还有一个好处,即并不是每家公司都愿意在硬件监控方面投入资金,很多公司在IT成本预算方面控制得很严格。
DELL系列的服务器在RAID充电时有报警现象,请大家正确甄别这种现象与服务器真正故障时的Nagios报警情况。
本节重点强调了Nagios这个监控工具,同时也分享了一些个人使用经验和心得。由于线上环境对高可用要求近乎苛刻,所以我们必须随时掌握服务器的性能,及时根据Nagios的警报邮件或短信来处理服务器的故障。

相关文章
|
1月前
|
弹性计算 监控 数据可视化
ecs自定义监控
ecs自定义监控
22 1
|
26天前
|
弹性计算 运维 监控
ECS资源监控
ECS资源监控涉及CPU、内存、磁盘I/O、网络流量、系统负载和进程的关键指标,通过云服务商控制台、监控服务、API与SDK、运维工具进行实时监控和告警设置。支持历史数据查询、事件监控,以及使用Windows资源监视器和Linux系统工具进行操作系统层面监控。全面监控确保ECS实例稳定运行、资源有效利用和问题及时处理。如需特定云服务商的指导,请询问。
28 3
|
29天前
|
监控 网络协议 Shell
【Shell 命令集合 网络通讯 】Linux 监控和记录网络中ARP(Address Resolution Protocol)活动 arpwatch命令 使用指南
【Shell 命令集合 网络通讯 】Linux 监控和记录网络中ARP(Address Resolution Protocol)活动 arpwatch命令 使用指南
33 0
|
2天前
|
JavaScript 前端开发 UED
Vue工具和生态系统: Vue.js和服务器端渲染(SSR)有关系吗?请解释。
Vue.js是一个渐进式JavaScript框架,常用于开发单页面应用,但其首屏加载较慢影响用户体验和SEO。为解决此问题,Vue.js支持服务器端渲染(SSR),在服务器预生成HTML,加快首屏速度。Vue.js的SSR可手动实现或借助如Nuxt.js的第三方库简化流程。Nuxt.js是基于Vue.js的服务器端渲染框架,整合核心库并提供额外功能,帮助构建高效的应用,改善用户体验。
4 0
|
4天前
|
监控 Linux
linux监控指定进程
请注意,以上步骤提供了一种基本的方式来监控指定进程。根据你的需求,你可以选择使用不同的工具和参数来获取更详细的进程信息。
10 0
|
4天前
|
监控 Linux 网络安全
linux中启动rpc.rstat监控
请注意,rpc.rstatd服务通常用于收集远程系统的性能统计信息,例如CPU利用率、内存使用等。在使用rpc.rstatd服务之前,你应该确保了解其功能、用法和安全性,并根据需要进行适当的配置和调整。
7 0
|
12天前
|
监控 Java Linux
linux下监控java进程 实现自动重启服务
linux下监控java进程 实现自动重启服务
|
16天前
|
缓存 监控 Linux
服务器中常用的几个资源监控工具整理
【4月更文挑战第2天】服务器中常用的几个资源监控工具整理
359 13
|
29天前
|
监控 Shell Linux
【Shell 命令集合 系统设置 】Linux 管理和监控电源管理 apmd命令 使用指南
【Shell 命令集合 系统设置 】Linux 管理和监控电源管理 apmd命令 使用指南
28 0
|
29天前
|
弹性计算 运维 监控
ecs监控与评估
阿里云ECS提供全面的监控与评估解决方案,包括云监控服务(实时资源指标、告警)、ECS实例详情页(运行状态查看)、资源负载评估(综合性能得分)、ECS Insight(多维度分析)、报警配置、流量管理优化(负载均衡、CDN)。这些工具帮助用户有效管理资源、识别潜在风险、优化性能,确保云服务稳定高效。
17 1

热门文章

最新文章