数据中心灾难恢复的最佳实践

简介:

如今,数据中心运营商每天都在为数据中心的高可用性感到烦恼,全天候工作以确保100%的正常运行时间。他们部署冗余设施以最大限度地降低风险,严格规划和测试以确保连续性运行,并采取预防措施保护其基础设施免受环境威胁。但是,即使是最好的计划和准备措施也会在自然灾难或突发事故中出错。

事实上,在某些极端情况下,先进的规划和准备工作依然无能为力,而灾后恢复成为确保企业在重建数据中心业务的同时保持功能的重要组成部分。

在任何灾难情况下,时间都是至关重要的,因此数据中心工作人员需要知道在事件发生后的几分钟、几小时和几天采取适当的行动。

数据中心灾难恢复的最佳实践

工作人员的安全首先是最重要的因素,因此一旦确定所有人员都是安全的,就应该开始执行以下恢复活动:

  • 主动监控所有关键设备以寻找隐藏的问题 - 查看直接受到灾难事件影响或暴露于灾难事件的设备,如发电机,机油和过滤器等。例如,在恢复工作可能需要几天甚至几周的情况下,对于监测燃料供应和了解发电机在没有备用柴油的情况下运行多长时间至关重要。在自然灾害紧急情况下,医院,急救人员和其他公共安全组织必须首先获得燃料供应,无论数据中心是否有没有燃料供应合同。
  • 在指定的时间段内增加现场巡查 - 这将有助于工作人员发现任何缺陷,如漏水或设施损害。确保每位员工都有合作伙伴提供支持和帮助也很重要。
  • 确保员工轮岗,减轻现场员工的压力 - 为了给员工提供足够的休息时间,企业可以考虑从其他没有受到影响的数据中心招聘员工或委托第三方供应商进行部分恢复工作。
  • 建立通信协议,提供关键更新和现场反馈 - 在验证所有区域和系统后,定期举行简报会,向工作人员和管理层通报任何数据中心或现场影响。在灾难恢复情况下,从CIO到每个工作人员人都可以发挥作用,因此,所有参与方都必须及时了解正在发生的事情。
  • 监视输入电源- 由于为数据中心的提供电力的电网可能受到影响,数据中心电力将会中断或质量下降,所以与电力公司联系以了解合理的安全时间非常重要,在电网供电正常时,数据中心关闭备用的发电机。并重新接入电网。
  • 应用经验教训 -只要时间允许,立即开始编写和记录经验教训和最佳实践,为下一步活动做好准备。

尽管自然灾害是不可避免的风险,但通过正确的灾难恢复计划,数据中心运营商可以将这些灾难性事件的影响降至最低,从而快速安全地恢复运营。


原文发布时间为:2017-11-13

本文作者:苏楠

本文来自云栖社区合作伙伴51CTO,了解相关信息可以关注51CTO。

目录
相关文章
|
传感器 运维 供应链
“科技+智能” 看阿里云低碳绿色数据中心最佳实践
“科技+智能” 看阿里云低碳绿色数据中心最佳实践
“科技+智能” 看阿里云低碳绿色数据中心最佳实践
|
存储 Kubernetes 监控
快速云原生化,从数据中心到云原生的迁移最佳实践
本文将介绍在帮助用户快速完成迁云中的解决方案、最佳实践以及迁云工具。
快速云原生化,从数据中心到云原生的迁移最佳实践
|
存储 Kubernetes 监控
快速云原生化,从数据中心到云原生的迁移最佳实践
0. 前言 云原生的时代已经到来,云原生技术正在重塑整个软件生命周期,阿里巴巴是国内最早布局云原生技术的公司之一。 容器服务团队在过去的几年时间内帮助很多用户成功把业务云原生化并迁移上云,其中有现在已经是我们TOP10的大客户,也有需要在国内开展业务的海外用户,有些是从其他云厂商迁移过来的用户,有些是从IDC里迁移上云的用户,而且越来越多的用户开始咨询如何对自己的应用做云原生化的改造。
306 0
快速云原生化,从数据中心到云原生的迁移最佳实践
|
存储 缓存 网络安全
本地数据中心基于SMB/NFS协议访问对象存储最佳实践
本地数据中心在本地存储有限的情况下可以基于云存储网关搭建一个海量文件系统的文件存储服务,实现多个数据中心互相之间高效的同步和共享数据。云存储网关以对象存储OSS为后端存储,为云上和云下应用提供业界标准的文件服务(NFS和SMB)和块存储服务(iSCSI)。
本地数据中心基于SMB/NFS协议访问对象存储最佳实践
|
数据中心 数据安全/隐私保护 网络架构
Confluence 6 数据中心的 SAML 单点登录最佳实践和故障排除
最佳实践 SAML 授权仅仅在有限的时间进行校验。你需要确定运行你的应用的计算机时间与 IdP 的时间是同步的。 如果你应用中的用户和用户组是通过用户目录进行配置的,你通常希望用户来源目录和你的 IdP 和 Atlassian 应用使用相同的 LDAP 目录。
1225 0

热门文章

最新文章