灾难恢复应避免三大错误

简介:
  IT停机的代价是昂贵的,但一些组织却没有对如何处理灾难做好充分准备。

考虑到IT停机的高成本,灾难恢复规划对于每个企业都至关重要。根据HIS公司在2016年做出调查报告,北美地区企业每年的IT停机时间损失高达7000亿美元。对于一个典型的中型公司,平均将损失约为100万美元,而大型企业平均损失超过6000万美元。

灾难恢复应避免三大错误

然而,即使成本如此之高,当涉及灾难恢复计划以减轻服务中断的影响时,很多企业可能陷入常见的陷阱。VMware公司高级技术营销经理GSKhalsa说,他认为有三大错误,很多组织一犯再犯。

1.没有灾难恢复计划

Khalsa认为,到目前为止,一些组织所犯的最大错误,也是最常见的错误之一,就是没有任何类型的灾难恢复计划。他说,根据行业统计数据表明,多达50%的组织没有制定任何灾难恢复计划。

这是不幸的,因为对于灾难准备并不像大多数组织假设的那样复杂或昂贵。“它不必涉及购买任何设备。”Khalsa说,“它不需要涉及任何东西,只是进行组织业务的讨论,这就是灾难恢复计划。”

即使组织决定只从最近的夜间备份中进行恢复,他们至少应该写出这个计划,以便他们知道紧急情况下应该做什么,以及预期是什么,他补充道。

2.没有进行灾难恢复计划的测试

制定计划只是第一步。组织也需要一种方法来测试计划。Khalsa表示,不幸的是,在传统的非虚拟化数据中心中,没有一种简单的不中断的方式来进行恢复测试。因此,大多数公司的测试只是偶尔进行的。

他指出,拥有一个虚拟化环境便于测试。组织可以复制其虚拟机并在隔离的网络上测试其恢复过程。这样,他们可以了解其恢复需要多长时间,并发现潜在的问题,而不必中断正在进行的操作。

3.不理解灾难恢复的复杂性

组织有时低估了从备份中恢复所需的工作量。Khalsa解释说,一些组织希望能够通过人工进行恢复,而这实际上是不可行的,一旦有大约10或20个虚拟机时,采用人工方法将会事倍功半。

他指出,有时IT人员会编写自己的脚本代码来实现自动化恢复过程,但即使这样也会有问题。“人们忘记了灾难不仅仅影响系统,也可能影响工作人员。”Khalsa说。灾难发生后,撰写脚本的人可能当时并没有在场,这将会妨碍灾难恢复过程。

Khalsa为参与灾难恢复计划的组织提供的建议是让IT部门与业务部门进行更好的沟通。工作人员和管理人员需要了解恢复点目标(RPO)和恢复时间目标(RTO)选项,并对可接受的风险级别做出一些决定。

 
 
  作者:佚名
来源:51CTO
目录
相关文章
|
1月前
|
存储 关系型数据库 MySQL
备份和恢复:确保数据安全
备份和恢复:确保数据安全
24 1
|
4月前
|
运维 Oracle 关系型数据库
服务器数据恢复-raid5故障导致上层oracle数据库故障的数据恢复案例
服务器数据恢复环境: 一台服务器中有一组由24块FC硬盘组建的raid5磁盘阵列,linux操作系统+ext3文件系统,服务器上层部署有oracle数据库。 服务器故障&检测: raid5阵列中有两块硬盘出现故障掉线,导致服务器上层卷无法挂载,oracle数据库无法正常使用。 通过管理后台查看服务器中硬盘的状态,显示有两块硬盘处于离线状态。
|
5月前
|
监控 安全 数据安全/隐私保护
服务器数据恢复—如何预防服务器故障?发生故障后如何恢复服务器数据?
服务器常见故障: 硬件故障:磁盘、板卡、电源故障等。 软件故障:操作系统崩溃、程序运行错误等。 入侵破坏:加密、删除服务数据等。 不可控力:浸水、火烧、倒塌等。 误操作:格式化、删除、覆盖等。
|
5月前
|
缓存 容灾 NoSQL
变形记---容灾恢复 ,异常崩溃引发服务器丢档或无法正常运行
最近我给M部门面试服务器主程序开发的职位,我只问他们的架构设计经验,我发现相当一部分5-12年“本应该有足够开发经验”的开发组长,或开发主程序缺乏设计,缺乏容错,缺乏创新,比如一些服务器宕机如何崩溃拉起恢复玩家数据,数据库的异步线程读写如何避免被其他线程写回呢,至少目前能听到合理方案的面试者的回答不多,这也是我想写这篇文章的出发点,以此来分享给大家, 不仅仅是为了应付面试,更是解决实际问题的一种思路。 如题,举例说明:游戏服务器(或者其他业务服务器)正常运行中出现了异常崩溃,可能是异常断电引发,可能是云服务商的软硬件问题引发,这种情况下,你们的服务器架构有没有做灾难恢复处理? 使得
|
5月前
|
SQL 运维 测试技术
记一次由于操作失误致使数据库瘫痪的故障分析与解决方案
在这篇文章中,我将分享一次由于操作不当导致数据库瘫痪的经验。通过回顾故障发生的时间、系统简介、时间线、问题分析和经验总结等方面的内容。讨论操作时间不当、操作流程不当、缺乏执行计划和限流机制等问题,并提出一些建议,如确认数据库更新时间、优化更新操作、使用限流工具、设置超时时间和重试机制、调整数据库参数以及定期维护和优化数据库。通过分享这次经验,我希望能帮助他人避免类似的错误,并提高数据库操作的准确性和稳定性。
|
SQL Oracle JavaScript
案发现场:被注入的软件及 ORA-600 16703 灾难的恢复
客户在尝试启动数据库时,是这样一个 ORA-600 错误映入眼帘,反复重试无法消除问题,历史备份,同样存在问题,客户毫无防范的,陷入一场数据库灾难。
2884 0
|
缓存 运维 监控
IT硬件故障的主要原因和预防的最佳实践
企业组织面临的超过 45% 的网络中断完全是由于硬件故障造成的,因此 24x7 全天候监控硬件至关重要
242 0
IT硬件故障的主要原因和预防的最佳实践
|
存储 Unix BI
数据备份和恢复方案(1)
数据备份和恢复方案(1)
203 0
|
存储 Oracle 关系型数据库
Raid信息丢失数据恢复及oracle数据库恢复验证方案
早些时候,有个客户14块盘的磁盘阵列出现故障,需要恢复的数据是oracle数据库,客户在寻求数据恢复技术支持,要求我提供详细的数据恢复方案,以下是提供给客户的详细数据恢复解决方案,本方案包含Raid数据恢复和oracle数据库的恢复验证。
980 0

热门文章

最新文章