数据中心灾难恢复的最佳实践-阿里云开发者社区

数据中心灾难恢复的最佳实践

2017-11-01 1017

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

如今，数据中心运营商每天都在为数据中心的高可用性感到烦恼，全天候工作以确保100%的正常运行时间。他们部署冗余设施以最大限度地降低风险，严格规划和测试以确保连续性运行，并采取预防措施保护其基础设施免受环境威胁。但是，即使是最好的计划和准备措施也会在自然灾难或突发事故中出错。

事实上，在某些极端情况下，先进的规划和准备工作依然无能为力，而灾后恢复成为确保企业在重建数据中心业务的同时保持功能的重要组成部分。

在任何灾难情况下，时间都是至关重要的，因此数据中心工作人员需要知道在事件发生后的几分钟、几小时和几天采取适当的行动。

工作人员的安全首先是最重要的因素，因此一旦确定所有人员都是安全的，就应该开始执行以下恢复活动：

主动监控所有关键设备以寻找隐藏的问题 - 查看直接受到灾难事件影响或暴露于灾难事件的设备，如发电机，机油和过滤器等。例如，在恢复工作可能需要几天甚至几周的情况下，对于监测燃料供应和了解发电机在没有备用柴油的情况下运行多长时间至关重要。在自然灾害紧急情况下，医院，急救人员和其他公共安全组织必须首先获得燃料供应，无论数据中心是否有没有燃料供应合同。
在指定的时间段内增加现场巡查 - 这将有助于工作人员发现任何缺陷，如漏水或设施损害。确保每位员工都有合作伙伴提供支持和帮助也很重要。
确保员工轮岗，减轻现场员工的压力 - 为了给员工提供足够的休息时间，企业可以考虑从其他没有受到影响的数据中心招聘员工或委托第三方供应商进行部分恢复工作。
建立通信协议，提供关键更新和现场反馈 - 在验证所有区域和系统后，定期举行简报会，向工作人员和管理层通报任何数据中心或现场影响。在灾难恢复情况下，从CIO到每个工作人员人都可以发挥作用，因此，所有参与方都必须及时了解正在发生的事情。
监视输入电源- 由于为数据中心的提供电力的电网可能受到影响，数据中心电力将会中断或质量下降，所以与电力公司联系以了解合理的安全时间非常重要，在电网供电正常时，数据中心关闭备用的发电机。并重新接入电网。
应用经验教训 -只要时间允许，立即开始编写和记录经验教训和最佳实践，为下一步活动做好准备。

尽管自然灾害是不可避免的风险，但通过正确的灾难恢复计划，数据中心运营商可以将这些灾难性事件的影响降至最低，从而快速安全地恢复运营。

原文发布时间为：2017-11-13

本文作者：苏楠

本文来自云栖社区合作伙伴51CTO，了解相关信息可以关注51CTO。