WSFC备份恢复

简介:

任何一项IT系统都需要备份恢复的机制,WSFC也不例外,对于WSFC,我们主要需要关注三块内容


  1. 群集CNO VCO的备份恢复

  2. 群集数据磁盘,CSV内容的备份恢复

  3. 群集数据库的备份恢复


群集 CNO VCO的备份恢复,其实就是活动目录数据的备份恢复了,正常情况下,2008R2之后开启活动目录回收站功能,即便计算机误删除,也可以恢复出来,之后再在群集管理器修复名称即可,这在前面文章已经讲过,2012开始可以直接通过AD管理中心恢复。且我们可以通过防删,备份等方案规避,CNO,VCO一旦误删,会导致群集无法访问,无法进行群集身份验证


群集数据磁盘,CSV内容,这点我们可以通过DPM,或是其它工具,例如,我们如果在群集CSV上面跑了很多虚拟机,那么是需要定期对群集上面的虚拟机做备份的,这时候如果备份工具支援,我们可以从CSV级别去备份上面所有的虚拟机内容,防止群集共享数据丢失


群集数据库的备份恢复,我们今天主要将涉及这个方面,之前,我们说过,群集数据库是群集配置运行的核心,它储存着WSFC群集所有的配置情况,会实时的在各个节点之间及见证磁盘同步,一旦发生故障转移,节点会参照群集数据库进行故障回复


群集数据库储存在节点注册表及见证磁盘,我们备份时,使用windows server backup,DPM备份系统状态,即可备份群集数据库,群集数据库储存在系统状态中。


群集数据库的备份恢复主要分为两种,一种是授权模式恢复,一种是非授权模式恢复,很有意思,有点像AD的数据库恢复一样


授权模式恢复


什么场景下会使用到授权模式恢复,例如,之前群集运行最正常的情况下,你执行了一次备份,忽然有一天因为不小心操作,弄坏了一些群集配置,整个群集开始不正常工作,这时候,您可以使用授权恢复,选择与一个节点进行恢复,在该节点上执行授权恢复,首先停止群集服务,恢复群集数据库配置,再启动群集节点,请注意,实质上这里,执行授权恢复的时候,所有群集节点的群集服务都会被停止!授权恢复后只要被恢复节点会优先启动,因为授权恢复,要把群集数据库配置回滚到之前的paxos标记,回滚之后需要将被授权恢复节点的群集数据库提升为黄金副本,之后,再手动启动其它群集节点的群集服务,其它群集节点会从拥有黄金副本的节点同步群集数据库配置,群集恢复正常。


可以看到,授权模式恢复的关键点在于 


1.机器可以不关机在线恢复 ,恢复后不需要重启 

2.WSFC和Windows Server backup感知,执行群集授权模式恢复


基本上授权模式恢复的场景很明确,回滚群集配置,并提升回滚节点群集数据库为黄金副本。


这里需要注意的一点是,由于群集数据库的paxos标记会实时变化,因此,执行群集数据库授权恢复时,一定一定不要一起启动所有群集节点的群集服务,一旦你不小心在其它节点改了配置,这次群集授权恢复就失败了,因为被修改节点的paxos标记为最新,恢复节点还是会去和它同步群集数据库



非授权恢复呢


相信大家已经猜到了,非授权恢复,和授权恢复类似,但是并不会有提升群集节点数据库为黄金副本这个过程


非授权恢复和授权恢复最大的不同是非授权恢复需要重启机器来完成,且恢复时间会较长


实质上当我们执行非授权恢复时,是相当于对于节点执行一个完整的裸机恢复


非授权恢复,老王认为主要适用于以下两种场景


  1. 单个群集节点出现问题,经常蓝屏崩溃,不稳定,现在不想继续用了,希望重装,这时候可以直接格式化节点,插入系统光盘,裸机恢复节点,裸机恢复后,群集节点数据库paxos标记为旧的标记,并不会提升为黄金副本,被非授权恢复的单个节点,会和其它拥有最新paxos标记的群集节点同步数据库。

  2. 整个群集出现问题,群集出现问题,任何一个节点都不能用了,但之前有裸机备份,这时候可以直接新装一台机器,插入系统光盘,裸机恢复到该节点,让群集先单点复活,之后等待有资源准备就绪后再加入到群集。


总结一下


授权恢复主要是用于恢复群集配置,并同步到其它所有节点

非授权恢复主要用于恢复节点或群集可以正常使用,被恢复的节点将会和其它可用节点同步群集数据库


目前老王来看能够支持微软群集数据库授权恢复的只有Windows Server backup,DPM,其中主要以Windows Server backup为主,Windows Server backup可以看到群集执行授权恢复的过程


对于非授权恢复,无非是裸机备份,裸机恢复,maybe除了微软的Windows Server backup,DPM,一些其它第三方的备份工具也可以使用


另外老王建议,备份群集数据库配置和备份群集数据分开执行,备份群集数据库就只是备份群集数据库配置,恢复时候我也只恢复群集数据库相关的内容,对于群集数据磁盘和CSV内容,建议单独执行备份,不要和群集数据库的备份恢复放在一起。


接下来我们分别实战群集数据库授权恢复和非授权恢复


授权恢复,场景介绍


DC01&iscsi      

lan:10.0.0.2 255.0.0.0

iscsi:30.0.0.2 255.0.0.0


HV01

MGMET:10.0.0.9 255.0.0.0 DNS 10.0.0.2

ISCSI:30.0.0.9 255.0.0.0

CLUS:18.0.0.9 255.0.0.0


HV02

MGMET:10.0.0.10 255.0.0.0 DNS 10.0.0.2

ISCSI:30.0.0.10 255.0.0.0

CLUS:18.0.0.10 255.0.0.0


当前群集正常运行,群集名称fscluster,群集文件服务应用fileshare

261fa85784a1242a1ab83fb4ed49f3eb.png

当前群集正常运行,我们已经执行过一次裸机备份

a1b7631405c0e5238e6916c0ff64e1d0.png

授权恢复操作流程如下


  1. 检索确认备份信息

  2. 通过wbadmin命令执行群集信息恢复

  3. wbadmin和wsfc整合,停止所有节点群集服务

  4. 恢复群集数据库为之前备份

  5. 启动被恢复节点群集服务,提升群集数据库为黄金副本

  6. 手动启动其它群集节点群集服务


破坏群集,删除文件服务器内容

a8f5d9fe80c7e76bfe51ece6f792b3e8.png

1.检查群集节点备份记录

wbadmin get versions

a1149939bc1a4b2165a8eab408fce886.png

检查备份详细信息

wbadmin get items -version:10/24/2017-02:17

b25229535e54c8d908ba83915c9643de.png

可以看到,虽然我们只是备份了裸机,但是windows server backup,感知到我们有群集,自动帮助我们备份群集,在2003时代只保存在系统状态,2008时代开始已经单独独立成应用程序!


2.在线通过wbadmin执行群集数据库授权恢复

wbadmin start recovery -itemtype:app -items:cluster -version:10/24/2017-02:17


正如我们所讲

99d4bf59eec0a265530bd51c11c9931e.png

准备好了输入Y,群集开始执行停止群集节点群集服务 - 恢复数据库 - 重新启动恢复节点群集服务

1880ff54cf2cd25aef98915092549c10.png

恢复完成后提示如下

362434074b621b049ba139b85d7c7150.png

可以看到,备份恢复过程,首先会停止所有节点群集服务,之后会先启动被恢复节点的群集服务,以提升为黄金副本

e275e2fa72e8696cd2eedbb7891508d3.png


8299f70bf5f598a52ffcf2f170a1653d.png


手动启动HV02节点群集服务

efc949baf59ce06919613cec415b3276.png


51393c44434f4775bd8d5ad66da4587c.png

群集配置恢复如初,授权恢复完成

0c3ebc33d89f195206d26b8d5415838e.png

查看clusterlog 授权恢复过程

b86651e45b60ac9bda84e76cc93005da.png


开始执行群集数据库还原 


1f08f941d8879aa76ab94e604858d86d.png


恢复paxos标记,提升paxos标记为黄金副本


d056e35da815c795d43a6c4ec552ee3c.png


715823f30f78a1712e7893ef72339c0d.png


群集恢复过程停止群集所有节点群集服务,但会稍后会自动启动被恢复节点,并提升paxos标记为最优,其它节点再加入时,必须要求与被恢复节点同步群集数据库内容,才可以正常加入群集


89e77b81828c3b69ab5011845f334dd7.png


a1f4dac119472424fea9d292cc6d00f5.png


接下来我们再执行非授权恢复


环境同授权恢复一样,这里我们模拟群集完全崩溃,两个节点都不能使用,我们新建一个配置完全相同的HV03,之后把群集内容恢复到该节点


由于我们会通过网络进行恢复,因此需要HV03这个新节点可以接入网络,以访问备份文件夹,可临时架设个DHCP服务器


当前HV01 HV02节点已关机,无法再开机


d942503a44ab53dbc00a7dd92f4becfa.png

按照同样配置新建HV03虚拟机,插入2016光盘,选择修复计算机

d0895ac5b15ecd4685610dbda6247a11.png

疑难解答

5dfd2c8d06af103311111ed11fe73064.png

系统映像恢复

22a5fbe9bdf8aaa60e577f3a7ae06a54.png

进去之后,如果你的新机器正常加入到了环境,正常联系到DHCP获取到地址,这里可以通过输入网络路径,凭据,访问到备份共享文件夹。

40f428372fc73fc1a596cc96d187c24c.png

国际惯例,下一步下一步

48b6fc72960d21faff2fce2c0e8183cd.png


7c26dea11615ce6f1d690c0de5474c9e.png

如采用新硬件服务器,此处需载入驱动程序

2fcee7376e478f558a642119b2ce319e.png


e195e7662665e450705c0389c97cb54c.png

泡杯茶等着好了

b3345734c2a3630d59562e004e427568.png

恢复完成后重启,进入开机界面

39af339406cd991011ad8102a41bfc04.png

群集节点网卡已经恢复到HV01的的状态,一些时候会出现部分网卡未正常恢复,如发现未正常恢复,重新输入即可。

b15df10337bbb87aa09de6d8e4b9079a.png

存储得到正常连接,在2008R2时代,如果执行非授权恢复,一些时候会碰见存储要重新连接的情况,2012,2016这得到了优化,大部分情况下存储状态都会保持正常

f75cc5cb0e6f53806245ebcb0f174b1a.png

打开群集管理器发现群集也已经正常恢复,当前只有新HV01节点可用

1308bc840d3892f6d4ef35dd3ca1e26f.png


fcb5ab518a04d8048762f0ebba20158a.png

稍后可以再重做其它节点添加进来


至此我们完成了在群集完全崩溃的情况下,利用已有的裸机备份重新恢复起群集。

除了我们这种形式的恢复

还有一种非授权恢复场景

即当前节点存活,那么我就可以在存活节点上面通过执行命令

wbadmin start systemstaterecovery -version:

来恢复单个崩溃节点,该恢复过程只是系统状态恢复,并不会执行数据库副本paxos标记提升操作,执行完成后重启,节点会和其它现有节点同步最新的群集数据库内容。


之所以老王选择演示群集完全崩溃的场景

是因为老王觉得这种场景下非授权恢复才发挥出最重要的意义

如果说因为一个节点的崩溃,而花力气去执行非授权恢复,我不如直接新build一个节点加入群集


对于群集的备份恢复


老王建议是一体化来做


  1. 开启活动目录回收站功能,CNO/VCO误删后,活动目录恢复,群集修复,如果群集所有信息都被删除,应最优先恢复CNO/VCO

  2. 针对群集节点执行裸机备份,用于非授权恢复崩溃的的节点/群集,授权恢复群集数据库配置。

  3. 针对群集数据磁盘,CSV,选择能和群集感知的备份工具进行备份恢复,如果群集所有信息都被删除,应先恢复CNO/VCO,群集数据库配置,最后恢复群集数据磁盘。


本文转自 老收藏家 51CTO博客,原文链接:http://blog.51cto.com/wzde2012/1975541
相关文章
|
30天前
|
SQL 运维 监控
TiDB集群故障排查与恢复
【2月更文挑战第28天】本章将详细探讨TiDB集群故障排查与恢复的方法。我们将介绍常见的故障类型、排查工具与步骤,以及故障恢复的策略与最佳实践。通过本章的学习,读者将能够掌握TiDB集群故障排查与恢复的技术,确保数据库的稳定性和可用性。
|
3月前
|
存储 缓存 安全
【VSAN数据恢复】VSAN集群节点数据迁移失败的数据恢复案例
VSAN存储是一个对象存储,以文件系统呈现给在vSphere主机上。这个对象存储服务会从VSAN集群中的每台主机上加载卷,将卷展现为单一的、在所有节点上都可见的分布式共享数据存储。 对于虚拟机来说,只有一个数据存储,这个分布式数据存储来自VSAN集群中每一台vSphere主机上的存储空间,通过磁盘组进行配置,在单独的存储中存放所有的虚拟机文件。这种数据存储方式比较安全,当闪存盘或者容量盘出现故障的时候,数据会向其他节点转移,在转移过程中有可能出现故障。
|
NoSQL MongoDB
副本集mogodb 物理备份与恢复
副本集mogodb 物理备份与恢复
180 0
|
存储 数据库
OushuDB 管理指南 备份恢复(下)
如果待备份表是压缩的,这个查询给出的大小是压缩后的大小,如果你的备份是没有压缩的,需要乘上一个压缩比来计算所需空间。通常我们使用3做为估计的压缩比。 基于数据库使用空间评估完压缩比的影响后,如果使用hdfs外部表备份,则获得的数据库大小需要乘hdfs存储副本个数评估总大小,通常该副本个数为3,即所需空间为databasesize * 3 * 3;如果使用gpfdist,gpfdist使用的机器个数是N,则每个机器上需要的空间是databasesize * 3 / N。
82 0
OushuDB 管理指南 备份恢复(下)
|
数据库
OushuDB 管理指南 备份恢复(上)
使用gpfdist外部表进行备份的步骤: 检查数据库的大小,确定gpfdist使用的文件系统有充分的空间 ● 使用pg_dump导出需要备份的数据schema ● 启动gpfdist并创建使用gpfdist的writable外部表 ● 备份数据
105 0
OushuDB 管理指南 备份恢复(上)
|
数据库
OushuDB 管理指南 备份恢复(中)
pg_dump和pg_restore是一种串行备份和恢复方式,对大数据库来说从运行时间和空间来看都不适合。所以只适用于非常小的数据库备份。
99 0
OushuDB 管理指南 备份恢复(中)
|
网络协议 Windows Java