分析和排查系统故障

简介:

分析日志;排查系统故障
1.分析日志:
1)了解日志:
日志:记录系统和程序运行的信息,用于排查故障和诊断系统状态。
日志的分类:内核及系统日志一般有rsyslog进行统一管理;用户日志记录用户行为日志;程序日志一般独立管理。
2)常见的日志文件及其作用:
/var/log/messages 包括内核及系统日志,大多的日志都在这文件中。推荐使用命令:tail -f /var/log/messages 或者:less /var/log/messages
/var/log/cron 计划任务的日志
/var/log/dmesg 启动过程的日志,一般系统的硬件加载过程中的信息都会被记录。推荐命令:grep error /var/log/dmesg(检查启动过程是否有错误)
/var/log/secure 用户认证相关的信息

3)内核、系统、用户日志的的集中管理:rsyslog
rpm -qa |grep rsyslog
rpm -ql rsyslog
man 5 rsyslog.conf ##配置文件的帮助
vi /etc/rsyslog.conf ##调整日志的记录行为
#rules(规则):
设备.优先级 日志存放位置(文件/IP)
设备:auth(认证,与security相同),cron(计划任务),kern(内核),mail(邮件),user(用户),local0-local7(用户自定义日志存放位置)
优先级:严重级别重第到高--debug(调试)--info(信息)--notice(注意)--warn(提醒)--error(错误)--crit(严重)--alert(警告)--emerg(紧急,等于panic(恐慌))
:可以表示所有的设备或者优先级
;--》隔开多个区域
.info;mail.none;authpriv.none;cron.none /var/log/messages #将所有设备产生的info及以上级别的日志记录在/var/log/messages中,但mail.none等排除了邮件、计划任务、认证日志。
authpriv.* /var/log/secure ##将所有认证日志记录在文件中
:wq
/etc/init.d/rsyslog restart
chkconfig rsyslog on ##设置为开机启动
4)查看日志文件:
tail -1 /var/log/messages
时间标签:主机名或IP:程序或设备:日志内容
tail -2 /var/log/secure ##查看登陆日志
last ##查看登陆成功日志
lastb ##查看登陆失败的日志
常用分析日志的工具:vi,less,tail,awk,sed,其他编程工具。
5)日志管理策略:
备份,控制访问权限,集中管理,延长保留期限。
经常关注:联网日志、文件传输日志、用户登陆记录日志。

修改root密码:
reboot-->按下键-->e-->下键选择kernel-->e-->输入空格1-->回车-->b-->进入单用户模式:passwd root修改密码-->init 3











本文转自信自己belive51CTO博客,原文链接:http://blog.51cto.com/11638205/2043786 ,如需转载请自行联系原作者


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
6月前
|
运维 网络协议 安全
网络故障分析
了解一些运维工作所必须要掌握的网络命令(MTR、traceroute 等)的原理和使用,并进行演示
|
7月前
|
运维 监控 安全
应急实战 | 记一次日志缺失的挖矿排查
应急实战 | 记一次日志缺失的挖矿排查
114 0
|
SQL 监控 网络协议
线上故障如何快速排查?来看这套技巧大全
有哪些常见的线上故障?如何快速定位问题?本文详细总结工作中的经验,从服务器、Java应用、数据库、Redis、网络和业务六个层面分享线上故障排查的思路和技巧。较长,同学们可收藏后再看。
线上故障如何快速排查?来看这套技巧大全
|
6月前
|
Prometheus Cloud Native 安全
硬件故障诊断:快速定位问题
硬件故障诊断:快速定位问题
96 0
|
8月前
|
监控 网络协议 前端开发
502问题怎么排查?
502问题怎么排查?
108 0
|
9月前
|
运维 监控 前端开发
记一次线上 bug 的排查分析过程及总结
记一次线上 bug 的排查分析过程及总结
记一次线上 bug 的排查分析过程及总结
|
测试技术 内存技术
|
SQL 存储 运维
能解决 80% 故障的排查思路 ,建议大家收藏。。
能解决 80% 故障的排查思路 ,建议大家收藏。。
199 0
能解决 80% 故障的排查思路 ,建议大家收藏。。
|
Arthas 运维 监控
线上故障突突突?如何紧急诊断、排查与恢复
稳定性大于一切,因此我们需要有更有效的方式避免线上故障。在发生故障不可避免的假设下,我们需要能够快速修复,减少线上影响。基于以上这些想法,我们提出了 1-5-10 的快恢目标,所谓 1-5-10 的目标就是是要我们对于线上问题能够做到 1 分钟发现,5 分钟定位,10 分钟修复。下面将会介绍一些阿里云上关于故障恢复、诊断的一些最佳实践。
线上故障突突突?如何紧急诊断、排查与恢复
|
SQL 存储 NoSQL
系统性能瓶颈排查技术总结
系统性能瓶颈排查技术总结
164 0