《构建高可用Linux服务器 第3版》—— 1.6 用开源工具Nagios监控Linux服务器

简介:

本节书摘来自华章出版社《构建高可用Linux服务器 第3版》一 书中的第1章,第1.6节,作者:余洪春 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.6 用开源工具Nagios监控Linux服务器

1.6.1 CentOS 5.8下的监控工具

在开源系统CentOS 5.8下有许多监控工具,比如实时监控系统状态的Nagios,还有监控网络流量的Cacti和MRTG,以及我个人比较喜欢的NTOP和Iptraf;另外,在CentOS 5.8下也有许多强大的命令行可用于监控系统状态,大家可以在Google上搜索以了解其具体用法。

1.6.2 Nagios应该监控的服务器基础选项

经过工作实践,我们认为Nagios应该监控服务器的参数有如下几个方面:

主机存活的状态:Nagios采用通过ping来实现对主机是否存活的检测机制。

系统load值:系统load值的最关键含义是CPU运行中等待的数量,从侧面反映了CPU的繁忙程序,只不过load值并不直接等于等待队列中的进程数量。

CPU使用率:CPU使用率和系统load值一样,从另一个角度反映了CPU的总体繁忙情况,只不过它所提供的信息更为详细,如当前空闲的CPU比率、系统占用的CPU比率、用户进程占用的CPU比率、处于I/O等待的CPU比率等。

磁盘I/O量:磁盘I/O直接反映了系统硬盘繁忙情况,特别对于数据库这种以I/O操作为主的系统来说,I/O的负载将直接影响到系统的整体响应速度(尤其是作为数据库服务器而言,监控的意义重大)。

swap进出量:swap的使用主要表现了系统在物理内存不够的情况下使用虚拟内存的情况。有的人在观察内存情况时总是走入误区,在“free-m”中应该关注swap,而非free。

网络流量:特别作为数据库系统,网络流量也是一个不容忽视的监控点。毕竟数据库系统的数据进出量比普通服务器要大很多;当然,如果是非数据库服务器,网络流量成为瓶颈的可能性还是比较小的。

僵死进程的监控:这项指标的监控意义我就不多说了,而且这在Nagios中已经作为系统默认内容存在了。

在LVS+Keeepalived或Nginx+Keepalived中,由Keepalived产生的VIP应该重点监控,毕竟许多系统和网站都是将此内网地址由防火墙映射成为公网地址的,相当于整个网站或系统的进口,其重要性不言而喻;另外,如果网站架构里有DRBD+Heartbeat,也强烈建议监控Heartbeat产生的VIP地址。

数据库MySQL的主从复制状态,MySQL的replication是一个异步同步的过程,在很大程度上会受到网络、硬件停电、主键冲突等方面的影响,所以监控的意义不言而喻。

1.6.3 工作中的Nagios使用心得

下面总结一下在工作中使用Nagios的心得。

网站运维每天的工作重点之一就是监控网站的实时状态,所以需要时时监控。这里跟大家介绍一个监控系统主机及服务Nagios系统实时提醒的Firefox插件,很实用。如果上班时需要实时关注监控服务器主机及服务的Nagios系统,就得一直开着一个网页,然后让页面自动刷新,感觉有点麻烦,而且浪费资源。虽说朋友分享了一个Nagios辅助小软件比较方便,可以将其最小化到任务栏,有异常时会出现浮动提示窗口,但是我一向喜欢尽量将所有东西都嵌入浏览器中进行操作,所以更希望能找到一款Firefox插件来实现类似于此辅助软件的功能,后来终于找到了,这个插件即Nagios Check插件。它的安装方法非常简单,这里就不多费篇幅了,效果图如图1-4(大家注意Firefox最右下角的小图标)所示。

screenshot

业务网站最好置于自己的机房内,因为Nagios对于网络的依赖很大。它依靠ping来检测服务器是否存活,如果网络情况不好或因别的原因造成Nagios检测不到监控服务器,会造成一个啼笑皆非的问题,它会狂发报警短信和邮件,说服务器已宕机,属于Critical情况。但事实上此服务器情况良好,仅仅是跟Nagios机器的网络不通而已,如果遇到这种情况希望大家注意甄别。
由于Nagios是部署在内网中的,所以它只能对内网的所有机器进行监控。由于我们的网站都是将内网机器的IP映射到防火墙的公网地址,对此Nagios就无能为力了,这个时候我们可以购买类似于AlertBot的实时扫描服务器来扫描我们的商务网站,并配合Nagios对网站进行实时监控。如果你的邮箱同时收到AlertBot和Nagios的报警,一定要慎重对待,这种情况百分百就是内网机器出现故障或者系统负载超过了Naiogs设定的阈值。
如是公网的一些重要业务或机器也有监控需求,我们可以将Naiogs部署在稳定的双线机房或BGP机房中监控。
如果认为在Nagios下部署短信猫或飞信麻烦,可以尝试中国移动提供的免费139邮件短信业务。使用免费的邮件短信业务其实还有一个好处,即并不是每家公司都愿意在硬件监控方面投入资金,很多公司在IT成本预算方面控制得很严格。
DELL系列的服务器在RAID充电时有报警现象,请大家正确甄别这种现象与服务器真正故障时的Nagios报警情况。
本节重点强调了Nagios这个监控工具,同时也分享了一些个人使用经验和心得。由于线上环境对高可用要求近乎苛刻,所以我们必须随时掌握服务器的性能,及时根据Nagios的警报邮件或短信来处理服务器的故障。

相关文章
|
9天前
|
Java Linux
Springboot 解决linux服务器下获取不到项目Resources下资源
Springboot 解决linux服务器下获取不到项目Resources下资源
|
12天前
|
Linux
linux下搭建tftp服务器教程
在Linux中搭建TFTP服务器,需安装`tftp-server`(如`tftpd-hpa`)。步骤包括:更新软件包列表,安装`tftpd-hpa`,启动并设置开机自启,配置服务器(编辑`/etc/default/tftpd-hpa`),添加选项,然后重启服务。完成后,可用`tftp`命令进行文件传输。例如,从IP`192.168.1.100`下载`file.txt`: ``` tftp 192.168.1.100 <<EOF binary put file.txt quit EOF ```
27 4
|
24天前
|
弹性计算 运维 监控
ECS资源监控
ECS资源监控涉及CPU、内存、磁盘I/O、网络流量、系统负载和进程的关键指标,通过云服务商控制台、监控服务、API与SDK、运维工具进行实时监控和告警设置。支持历史数据查询、事件监控,以及使用Windows资源监视器和Linux系统工具进行操作系统层面监控。全面监控确保ECS实例稳定运行、资源有效利用和问题及时处理。如需特定云服务商的指导,请询问。
28 3
|
5天前
|
Linux 数据安全/隐私保护
Linux基础与服务器架构综合小实践
【4月更文挑战第9天】Linux基础与服务器架构综合小实践
942 6
|
17天前
|
Ubuntu Linux 虚拟化
【Linux】ubuntu安装samba服务器
【Linux】ubuntu安装samba服务器
|
17天前
|
Linux
Linux安装bind9搭建自己的域名服务器
Linux安装bind9搭建自己的域名服务器
11 0
|
20天前
|
网络协议 Linux 网络安全
Linux服务器DNS服务器配置实现bind的正向解释和反向解释
Linux服务器DNS服务器配置实现bind的正向解释和反向解释
17 0
|
24天前
|
Ubuntu JavaScript 关系型数据库
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
在阿里云Ubuntu 20.04服务器上部署Ghost博客的步骤包括创建新用户、安装Nginx、MySQL和Node.js 18.x。首先,通过`adduser`命令创建非root用户,然后安装Nginx和MySQL。接着,设置Node.js环境,下载Nodesource GPG密钥并安装Node.js 18.x。之后,使用`npm`安装Ghost-CLI,创建Ghost安装目录并进行安装。配置过程中需提供博客URL、数据库连接信息等。最后,测试访问前台首页和后台管理页面。确保DNS设置正确,并根据提示完成Ghost博客的配置。
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
|
27天前
|
存储 弹性计算 数据可视化
要将ECS中的文件直接传输到阿里云网盘与相册(
【2月更文挑战第31天】要将ECS中的文件直接传输到阿里云网盘与相册(
413 4
|
29天前
|
SQL 弹性计算 安全
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程
当我们通过阿里云的活动购买完云服务器之后,并不是立马就能使用了,还需要我们设置云服务器密码,配置安全组等基本操作之后才能使用,有的用户还需要购买并挂载数据盘到云服务器上,很多新手用户由于是初次使用阿里云服务器,因此并不知道这些设置的操作流程,下面给大家介绍下这些设置的具体操作流程。
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程