被篡改的daemon

简介: 大家好,今天跟大家分享一例有趣的问题。问题的有趣之处,在于它稍微有点曲折。处理这类问题,我们需要不断的提出一个个小的问题,然后通过解决这些小问题,最后解决原本的问题。


问题现象

ECS服务器的CPU总是被init用掉30%左右,而且可以看到整个系统的sy占比相当之高。

c0e2243f76818f00c6403321adb7566c.png

问题处理过程

init进程在做什么?

首先,init进程作为Linux系统所有进程的父进程,负责系统的启动过程。这个进程使用CPU资源,我们第一个需要问自己的问题是,这个进程到底在做什么。

使用strace可以挂到正在运行的进程上,追踪进程的系统调用。通过阅读进程的系统调用,我们大概可以估计一下进程的行为。具体到这个问题,在strace日志中,会发现大量的进程退出的记录。下边是用SIGCHLD信号过滤过的strace日志。在这个截图里,我们可以看到,在一秒时间内,就有大量的进程退出。CLD_EXITED说明子进程退出。这绝对是一个非常不正常的状况。如此行为必然消耗大量CPU资源。

这些进程到底是什么?

知道init在不断的启停大量进程之后,我们自然而然的会问自己,这些进程到底是什么。找出这个问题的答案的方法可能有很多种,但是这里我用到了一种比较简单的方法,叫做auditing,简单点说,就是审计和记录系统一些关键操作。

我们开启audit之后,会在/var/log/audit/目录里快速生成很多日志文件,通过分析和过滤,发现大量被启停的进程是atd。syscall=2对应fork系统调用。

另外用ls命令不断的刷新/proc目录,我们也可以看到进程短时间被大量启停的迹象。

atd被不断的启停导致init使用CPU高?

目前我们知道了,init进程在不断的atd进程,基本上我们已经有了一个阶段性的结论。我们简单验证一下这个结论。

把/usr/bin/atd重命名为/usr/bin/atd.backup,重启系统,问题不再发生。

为什么atd被不断的启停?

init启动atd的基本方式是,如果atd退出,那么atd会被重启。这个可以在atd.conf文件中看到。所以开始猜测的情况是,因为atd不正常退出,所以被init重复启动。所以方向放在了调试atd非正常退出上。结果用strace追踪,并没有发现太多有用的信息。最后我把方向转向了ltrace。用ltrace追踪atd的启动过程,我发现这个进程会fork一个子进程,然后这个子进程又会重复父进程的行为,直到无穷。这是一个非常有趣的现象。

atd的bug?

这个时候,很自然的,我会认为这是atd的一个bug,而这个bug在客户机器环境中被触发出来。

但是这个时候我发现另外一个不和逻辑的地方,我明明把atd重命名为atd.backup,但是机器重启之后,依然有atd这个进程存在,而且CPU问题不在了!

顺手用which命令查了一下atd,发现这次正在运行的atd命令是usr/sbin/atd,而不是/usr/bin/atd。这两个文件大小完全不同。

root@iZ2ze322qa55cmibwpd2zeZ:~# ls -al /usr/bin/atd.backup
-rwx--x--x 1 root root 2443616 Feb 20 2017 /usr/bin/atd.backup
root@iZ2ze322qa55cmibwpd2zeZ:~# ls -al /usr/sbin/atd
-rwxr-xr-x 1 root root 22544 Oct 21 2013 /usr/sbin/atd

而且/usr/bin/atd这个文件,并属于at这个package。

root@iZ2ze322qa55cmibwpd2zeZ:~# dpkg -L at
/.
/lib
/lib/systemd
/lib/systemd/system
/lib/systemd/system/atd.service
/usr
/usr/share
/usr/share/man
/usr/share/man/man8
/usr/share/man/man8/atd.8.gz
/usr/share/man/man5
/usr/share/man/man5/at.allow.5.gz
/usr/share/man/man1
/usr/share/man/man1/at.1.gz
/usr/share/doc
/usr/share/doc/at
/usr/share/doc/at/README
/usr/share/doc/at/copyright
/usr/share/doc/at/Problems
/usr/share/doc/at/changelog.Debian.gz
/usr/share/doc/at/timespec
/usr/sbin
/usr/sbin/atd
/usr/bin
/usr/bin/at
/usr/bin/batch
/etc
/etc/init.d
/etc/init.d/atd
/etc/at.deny
/etc/pam.d
/etc/pam.d/atd
/etc/init
/etc/init/atd.conf
/var
/var/spool
/var/spool/cron
/var/spool/cron/atjobs
/var/spool/cron/atspool
/usr/share/man/man5/at.deny.5.gz
/usr/share/man/man1/atrm.1.gz
/usr/share/man/man1/batch.1.gz
/usr/share/man/man1/atq.1.gz
/usr/bin/atq
/usr/bin/atrm

结论&建议

目前这种状况,建议重新安装系统,同时可以请安全团队进一步核实这个文件的来源。

目录
相关文章
|
算法 网络安全 数据安全/隐私保护
|
8月前
|
安全 网络安全 Apache
服务器漏洞修复之SSL/TLS协议信息泄露漏洞(CVE-2016-2183)
服务器漏洞修复之SSL/TLS协议信息泄露漏洞(CVE-2016-2183)
3590 0
|
11月前
|
安全 算法 应用服务中间件
重识Nginx - 12 SSL/TLS 浅析
重识Nginx - 12 SSL/TLS 浅析
75 0
|
应用服务中间件 网络安全 Apache
解决 Nginx Let's Encrypt HTTPS 证书 错误: 服务器缺少中间证书
解决 Nginx Let's Encrypt HTTPS 证书 错误: 服务器缺少中间证书
644 0
解决 Nginx Let's Encrypt HTTPS 证书 错误: 服务器缺少中间证书
|
Linux 网络安全 数据安全/隐私保护
CentOS7下使用DenyHosts阻止SSH暴力攻击
CentOS7下使用DenyHosts阻止SSH暴力攻击
362 1
CentOS7下使用DenyHosts阻止SSH暴力攻击
|
监控 网络协议 Linux
Linux防暴力破解工具Fail2ban的日志接入到GrayLog并实现GeoIP展示
Linux防暴力破解工具Fail2ban的日志接入到GrayLog并实现GeoIP展示
282 0
Linux防暴力破解工具Fail2ban的日志接入到GrayLog并实现GeoIP展示
|
安全 Linux 网络安全
CentOS7下vsftpd over SSL/TLS加密传输配置实践
CentOS7下vsftpd over SSL/TLS加密传输配置实践
398 0
CentOS7下vsftpd over SSL/TLS加密传输配置实践
|
安全 Windows
Resin远程信息泄露漏洞
受影响系统:   Caucho Technology Resin v3.1.0 for Windows   Caucho Technology Resin v3.
1585 0
|
Memcache 缓存 存储
Memcached配置失误引发的Keystone token丢失的问题
故障现象 近期公司的OpenStack上频繁出现虚拟机创建失败的情况,查看日志定位到问题出在neutron-server向keystone认证token失败。   故障原因 Keystone所使用的Memcahed token后端配置的可用内存大小为64MB,新集群加入后,token量逐渐增加,需要保存的数据量大于这个大小,导致memcached频繁清理未过期的以腾出空间存储新创建的token,继而出现token丢的情况。
1759 0