关注物理硬盘预警信息

简介:

有一次在做MySQL数据库更新时,发现DML更新效率特别低,总能发现超过1秒的慢日志,一般很少会出现这种情况,初步判定为可能网络故障或者就是DB服务器自身的性能出现问题导致。

经过检查服务器状况,发现确实发生了硬件故障,主要是raid 10中的一块硬盘发生预警,信息如下:

Physical Disk: 1
Enclosure Device ID: 32
Slot Number: 3
Device Id: 3
Sequence Number: 2Media Error Count: 650Other Error Count: 73Predictive Failure Count: 71Last Predictive Failure Event Seq Number: 6716
Raw Size: 140014MB [0x11177328 Sectors]
Non Coerced Size: 139502MB [0x11077328 Sectors]
Coerced Size: 139392MB [0x11040000 Sectors]
Firmware state: Online
SAS Address(0): 0x500000e11079e682
SAS Address(1): 0x0
Connected Port Number: 3(path0) 
Inquiry Data: FUJITSU MBA3147RC       D306BLB5P9500H4M

大家注意下上面的信息,硬盘的状态还是 Online,并没有报错,但是另外2个 Error Count值从凌晨开始一直在较快速度增长。
再观察服务器的sar日志,发现从5点发起例行DB备份时,服务器的IO性能急剧下降,因此认定:
停服时存盘速度慢确实和一块硬盘发生预警有关系

由于发起DB备份,需要瞬间读取大量数据,因此需要扫描全部raid阵列中的硬盘,但其中一块盘的状态并没有标记为Failed或Offline,
因此raid阵列还是会去扫描它,导致IO性能特别差。这时候,如果我们把硬盘状态修改成Offline应该就可以避免这种问题,并且不会对raid 10产生丢数据的风险。

碰到类似现象需要谨慎,尽快安排更换备盘,防止问题扩大化。


本文转自叶金荣51CTO博客,原文链接:http://blog.51cto.com/imysql/1879740,如需转载请自行联系原作者

相关文章
|
8天前
|
弹性计算 监控 Shell
批量主机磁盘利用率监控
【4月更文挑战第30天】
17 0
|
8天前
|
存储 运维 安全
服务器数据恢复—异常断电导致RAID5阵列信息丢失的数据恢复案例
服务器数据恢复环境: 某品牌ProLiant DL380系列服务器,服务器中有一组由6块SAS硬盘组建的RAID5阵列,WINDOWS SERVER操作系统,作为企业内部文件服务器使用。 服务器故障: 机房供电几次意外中断,服务器出现故障前最后一次异常断电重启后RAID报错,提示无法找到存储设备,进入RAID管理模块做任何操作都死机,重启服务器后问题依旧,用户联系北亚企安数据恢复中心寻求帮助。
|
7月前
|
存储 容灾
百度搜索:蓝易云【RAID0、RAID1、RAID5、RAID10特点是什么?所需的硬盘数量分别为多少?容灾级别如何?】
需要注意的是,以上硬盘数量是最低要求,实际应用中可以使用更多硬盘来进一步增加性能和容灾能力。此外,RAID的性能和容灾级别还受到控制器、硬盘类型和配置参数等因素的影响。
406 0
|
监控
常用PC服务器阵列卡、硬盘健康监控
常用PC服务器阵列卡、硬盘健康监控
502 0
|
监控
smartctl定位磁盘故障信息
​ Smartctl(S.M.A.R.T 自监控,分析和报告技术)是用于查看和检测磁盘硬件信息的工具,可以打印SMART自检和错误日志,启用并禁用SMRAT自动检测,以及初始化设备自检。服务器环境中,一般磁盘都是通过RAID卡挂载,如果配置了直通模式,则可以直接使用smartctl查询磁盘信息,如果非直通模式则需要调用raid卡对应接口才可以查询
20628 1
内燃机车列车运行监控记录装置优化
我国内燃机车均已经加装了LKJ-93型列车运行监控记录装置,LKJ-93型列车运行监控记录装置的拥有量占比67%,是我国钢铁企业铁路运输自动化设备的重要组成部分。
|
Web App开发 测试技术 Linux
|
监控 固态存储 测试技术