记录一次raid故障后的恢复和回迁数据全过程

简介:

    故障发生在两块盘组成的一个raid0上,其中的一块盘亮黄灯,被raid卡踢出后,raid崩溃,下面就把当时抢救数据的整个过程进行介绍。

   由于硬盘是两块SAS 300G的硬盘,先把硬盘从机器中拔出来,然后通过SAS HBA的方式直连到win的环境下,并在磁盘管理中将硬盘标记为脱机状态,以保证操作过程中是只读的,保护原始数据的安全。

   在将两个硬盘底层所有扇区都镜像出来后,通过文件系统分析盘序和条带大小,使用软件虚拟重组的方式将原始raid环境搭起来后,再进一步解析ntfs文件系统后终于看到了数据,这时候新的问题出现了,如果直接把数据拷贝出来,那么原始的系统和应用都需要重新部署,而且因为没有了软件服务商的支持,实施起来有一定的难度,于是想着把搭起来的raid再完整的迁移到新的raid环境中,就可以做到和损坏前一样。这样一来就可以节省大量时间。

   由于有了前车之鉴,所以在新的raid环境上吸取了上次的教训,决定使用三块盘组建raid5,即使有一块硬盘出现故障离线,raid也可以处于降级状态,不会立刻崩溃,给了使用者替换新硬盘的机会。

   在安装了支持raid5的新raid卡和插了新硬盘后创建了一个raid5的卷,现在开始研究怎么把做出来的数据迁移过去

   因为服务器前面板由raid卡来管理,所以直接插个新盘上去是不会在系统下直接识别的,需要在raid卡下创建raid后才可以使用,而且限于单盘容量的问题,不能采用这个方案,于是研究别的办法。因为服务器前面板有个DVD光驱,而且现在的服务器光驱和主板都是采用sata通道连接,所以可以把机盖打开使用上面的sata口,连接一块sata硬盘,在pe或者linux live cd模式下就可以回迁数据了,而且这是速度最快的方法。但是在我们准备实施的时候发现这个机器使用的sata不是标准大小接口类型,而是mini sata,因为手里没有现成的转接卡,所以这个办法也不行,其实在数据量不大的时候也可以使用USB方式去做,但是因为现在绝大部分服务器的usb还停留在USB2.0 速度太慢,对于大数据量,时间上不可接受。

   最后的最后我们绝对使用一种新奇的办法回迁数据----走网络。

   这时候需要先启动个linux live cd 一般我们都使用linux system rescue cd,在linux启动完成后ifconfig配置下服务器的ip,然后我们将做出来的数据放在一个win 2008 r2的机器上,在win环境下开启nfs服务(默认是关闭的)“服务管理器--角色--添加角色--勾选文件服务—勾选网络文件系统服务进行安装,第一次安装完成之后需要重启一下计算机”

wKiom1jkizjw8mvNAAFOBZaFbiI382.jpg-wh_50 

   重启完成后我们对存放镜像数据的文件夹进行操作,右键—NFS共享标签页里面勾选共享此文件夹,然后有个重点是在权限里面勾选允许根目录访问,访问类型选择读写。

wKioL1jki0vyu7wVAAIA4YH8Hdo147.jpg-wh_50 

   Win端的设置完成后,我们再看下linux端的设置,ifconfig查看当前网络配置

wKiom1jki17gNMLPAAIOOG4jJvE901.jpg-wh_50 

    因为我们需要分配个ip给他,在这里我们分配网卡“enp4s0”,ip地址分配成10.3.12.3 子网掩码为255.0.0.0,使用如下命令:ifconfig enp4s0 10.3.12.3 255.0.0.0 然后再使用ifconfig查看ip地址

 wKiom1jki3DCRFTIAAENBrZDQqo710.jpg-wh_50

   配置好ip之后,查看一下网络是否连同,命令:ping 10.1.1.1 ,

  再查看10.1.1.1机器上的NFS共享的目录是否能够访问,命令:showmount –e 10.1.1.1,

wKioL1jki32g3BqBAADeGSPjgaA150.jpg-wh_50 

   源机器和目标机器现在已经连接通,在linux创建一个目录mkdir /mnt/bysjhf

     创建好之后,我们将镜像出来的数据挂载到linux下新创建的文件夹下mount 10.1.1.1:/data /mnt/bysjhf –o nolock

     挂载好之后,查看一下挂载点信息df –k

 wKiom1jki5LzBvnHAAO6ZRNnPmc696.jpg-wh_50

   确定已经挂载好之后,进入这个文件夹,查看一下文件夹里的镜像文件:

     root@sysresccd /mnt/bysjhf % ls

     并查看硬盘及分区信息:fdisk –l

 

wKioL1jki8-C0NmRAABoXiWFMhE693.jpg-wh_50

wKiom1jki9WSYE2JAAJ0RFLX35o425.jpg-wh_50

 

   确认好源设备和目标设备之后,进行镜像操作:

  dd if=/mnt/bysjhf/data.img of=/dev/sda bs=10M

wKioL1jki_eRWQTOAAB7o2pIk6w140.jpg-wh_50 

    在千兆网环境下NFS的速度能够跑到70M/S,这已经是一个很理想的速度,在等待dd完成后,我们重启ibm X3650服务器,并选择raid引导,期待的windows启动页面终于出现了,前面的辛苦没有白费,数据完整的迁移成功。











本文转自 张宇 51CTO博客,原文链接:http://blog.51cto.com/zhangyu/1913059,如需转载请自行联系原作者
目录
相关文章
|
3月前
|
运维 安全 数据挖掘
【服务器数据恢复】硬盘离线导致Raid5热备盘上线同步失败的数据恢复案例
**服务器数据恢复环境:** 两组由4块磁盘组建的raid5磁盘阵列,两组raid5阵列划分为lun并组成了lvm结构,ext3文件系统。 **服务器故障:** 一组raid5阵列中的一块硬盘离线,热备盘自动上线并开始同步数据。在热备盘完成同步之前,该组raid5阵列中另一块硬盘离线,热备盘同步失败,该组raid5阵列崩溃无法使用,lvm结构被破坏,ext3文件系统无法正常使用了。
|
4月前
|
存储 Unix 数据挖掘
【北亚服务器数据恢复】LUN映射出错导致文件系统一致性出错的数据恢复案例
服务器数据恢复环境: san环境下的存储上一组由6块硬盘组建的RAID6,划分为若干LUN,MAP到跑不同业务的服务器上,服务器上层是SOLARIS操作系统+UFS文件系统。 服务器故障: 业务需求需要增加一台服务器跑新增的应用,工作人员在原服务器在线的状态下将其中一个lun映射到一台新服务器上。实际上这个刚映射过去的卷已经map到了solaris生产系统上的某个lun上了。新服务器对这个映射过来的卷进行初始化,原来的solaris系统上的磁盘报错,重启服务器后这个卷已经无法挂载了。 联系原厂工程师寻求帮助,原厂工程师检测后执行了fsck操作,完成fsck操作后文件系统挂载成功,查看数据时发
|
6月前
|
存储 运维 数据挖掘
服务器数据恢复-服务器硬盘掉线导致银行业务模块崩溃的数据恢复案例
某银行的某一业务模块崩溃,无法正常使用。排查服务器故障,发现运行该业务模块的服务器中多块硬盘离线,导致上层应用崩溃。 故障服务器内多块硬盘掉线,硬盘掉线数量超过服务器raid阵列冗余级别所允许的硬盘掉线数量,导致服务器瘫痪。可以通过修复硬盘物理故障,提取故障盘数据后重组raid的方案来恢复服务器数据。
|
3月前
|
存储 关系型数据库 MySQL
【服务器数据恢复】同友存储数raid5崩溃的据恢复案例
服务器数据恢复环境: 一台同友存储,存储上有一组raid5磁盘阵列,存储上层有若干台虚拟机,其中有3台linux操作系统虚拟机上存放重要数据。 服务器故障: 同友存储上的raid5阵列崩溃导致存储无法启动。
【服务器数据恢复】同友存储数raid5崩溃的据恢复案例
|
1月前
|
存储 数据挖掘 Windows
服务器数据恢复—异常断电导致raid信息丢失的数据恢复案例
由于机房多次断电导致一台服务器中raid阵列信息丢失。该阵列中存放的是文档,上层安装的是Windows server操作系统,没有配置ups。 因为服务器异常断电重启后,raid阵列可以正常使用,所以未引起管理员的注意。后续出现的多次异常断电导致raid报错,服务器无法找到存储设备,进入raid管理模块进行任何操作都会导致操作系统死机。管理员尝试多次重启服务器,故障依旧。
|
2月前
|
存储 运维 数据挖掘
【服务器数据恢复】断电导致服务器RAID故障的数据恢复案例
某品牌服务器中有一组由数块SAS硬盘组建的RAID5磁盘阵列,服务器操作系统是WINDOWS SERVER,服务器中存放企业数据,无数据库文件。 服务器出故障之前出现过几次意外断电的情况,服务器断电重启后没有发现异常,直到最后一次断电重启后RAID报错:“无法找到存储设备”,进入RAID管理模块后进行任何操作都会死机,服务器管理员多次重启服务器仍然无法进入系统。为了防止服务器内数据丢失,管理员联系我们数据恢复中心寻求帮助。
|
3月前
|
数据挖掘 数据库 Windows
【服务器数据恢复】服务器raid5崩溃导致上层分区无法访问的数据恢复案例
服务器数据恢复环境: 北京某教育机构一台服务器中有一组由3块磁盘组建的raid5阵列,服务器安装的windows server操作系统。 服务器故障: 该服务器在运行过程中突然瘫痪,无法正常工作。北亚企安数据恢复工程师去现场对故障服务器进行了检测,发现故障服务器raid5阵列中有一块硬盘由于未知原因离线,服务器中存放重要数据的分区无法识别。
|
4月前
|
运维 Oracle 关系型数据库
服务器数据恢复-raid5故障导致上层oracle数据库故障的数据恢复案例
服务器数据恢复环境: 一台服务器中有一组由24块FC硬盘组建的raid5磁盘阵列,linux操作系统+ext3文件系统,服务器上层部署有oracle数据库。 服务器故障&检测: raid5阵列中有两块硬盘出现故障掉线,导致服务器上层卷无法挂载,oracle数据库无法正常使用。 通过管理后台查看服务器中硬盘的状态,显示有两块硬盘处于离线状态。
|
5月前
|
监控 安全 数据安全/隐私保护
服务器数据恢复—如何预防服务器故障?发生故障后如何恢复服务器数据?
服务器常见故障: 硬件故障:磁盘、板卡、电源故障等。 软件故障:操作系统崩溃、程序运行错误等。 入侵破坏:加密、删除服务数据等。 不可控力:浸水、火烧、倒塌等。 误操作:格式化、删除、覆盖等。
|
6月前
|
Oracle 关系型数据库 数据挖掘
服务器数据恢复-RAID卡上RAID信息丢失的服务器数据恢复案例
服务器数据恢复环境: 一台服务器,8块硬盘组建了一组raid5磁盘阵列,服务器安装的是windows server操作系统,上层部署ORACLE数据库。 服务器故障: 在服务器运行过程中,2块硬盘报警,服务器操作系统和ORACLE数据库都无法启动。 RAID5可以允许一块硬盘离线,如果有2块硬盘离线就会导致阵列崩溃。和用户方沟通后确认该RAID5阵列中没有第二块硬盘离线,北亚企安数据恢复工程师初步判断RAID卡上的RAID信息可能已经丢失或破坏。

热门文章

最新文章