亲历火灾:数据中心灾难恢复启示录

简介:

作者注:该故事基于真实事件。每个细节都来自我的学生和我获得的一手事实。

凌晨三点,我的手机收到一封告警。自从我们安装了新的数据中心基础设施管理系统后,每晚我都能收到十倍以上的告警,但都不是很严重的问题。但这次不同,我们主数据中心的温度虽然都在ASHRAE的允许温度范围内——但高于公司运营限制,而且还在不断上升。

财务部门在有人确定既定标准与设计之前就决定了我们新数据中心的预算,我们不得不经常削减其中的灾难恢复策略。我曾坚持要求额外的空调以及模块化的不间断电源系统(UPS)冗余。除了这些,设计师认定我们在Uptime Tier III级别标准,但我们也没有理由去花钱来获得认证。

我通知了保安。他们也收到了相同的告警,但没有一个人能够定位问题。在叫醒了设施经理,他表示会安排人员到场后,我穿好衣服并前往设施。

压力与无力感

一小时后,我走进那个感觉像沙哈拉沙漠的数据中心。灯光到处闪烁,服务器所有的风扇全速运转,我们10台空调有2台出现了故障。一些服务器已经自动关机了。我突然意识到本该落实到位的灾难恢复策略已经开始崩溃。

数据中心基础设施管理显示的内容令人困扰,而且图形用户界面并没有任何意义,用户登陆后的首菜单后,没有看到问题。一大串数据显示温度已经持续升高了数小时。为什么我没有更早得到告警?我发现一张看起来像天书的电气图,但我知道这个可能是UPS系统。我知道从那里可以找到我们服务器机柜的面板,但并不知道具体的控制机制。墙上还有一些电器面板,但标签没有任何意义。“LBTA-3”可能是任何东西,而且面板门被锁住了。

设施与IT不匹配,数据中心就崩溃了——特别是在紧急情况下。解决冲突的一种方案是让某个IT团队成员也对设施管理负责。另一种方法是简化两部门之间的沟通。

设施工作人员赶到现场后,他证实了我已知道的事实:没有足够能源来支持我们所有设备。他检查了所能找到的断路器,没有发现任何错误,但在没有电工的情况下我们无法进一步排查。这时候只好继续打电话给设施经理,接着等电工到达。

一台接一台,我关闭了服务器,避免灾难性崩溃发生。不久电工到了,而且他知道电路板在哪里——那扇我们无法进入,只有靠他的特殊钥匙才能打开的门后面。他开启了大门,里面很凉快。这间同样是UPS室,而里面只有一台空调在运转。单台空调意味着我们的冗余UPS被安置在非冗余冷却环境中。

事情升温

在电工重置了跳闸的主断路器后,空调开始恢复运作——但好景不长。火苗从电箱面板的小裂缝处冒出。我们的吸气式烟雾探测系统如果及时通知我们事情严重了,我们就能在主消防系统释放灭火气体之前解决问题。烟雾迅速弥漫整个数据中心,伴随着震耳欲聋的告警声。但在没有任何预警的情况下,主系统已经开始气体释放倒计时。由于数据中心内没有着火,我按下了重载按钮,但只有倒计时被重置了。消防员出现在门口。只有空调电源出现问题,不是UPS或服务器电源,但他们立刻到达了大红色的EPO(紧急电源关闭)按钮处。我朝他们大喊,但他们还是按下去了。几秒钟后,灭火气体释放了。电工赶往地下室切断机房的主供电,而消防员正在往燃烧的配电箱中浇灌泡沫。

在DR站点遭到冷遇

当外海办事处同事通过越洋电话询问我发生了何事,为什么他们无法访问公司电话时,我向他们保证,根据我们的灾难恢复策略,需求会被转发到灾难恢复站点。然而,虽然我们已经签约了站点,但我们实际并没有进行任何传输操作,就是我们还没有转移IT基础设施——无论是物理的还是虚拟的——到DR站点。当我打电话给DR供应商宣布紧急状况时,他们告诉我站点没有热维护,也无法随时上线。我们一直都在做日常数据备份到灾难恢复中心,但需要时间让我们进行用户转移操作。而且我们需要自己的员工到场才能进行。

当数据中心灾难发生,必须与组织的其余部门进行通信。通过创建通信树计划来避免混乱,也可以通过自动通知系统来告知数据中心灾难。

在电气室,火已经扑灭,电源被关闭,我们需要靠应急灯照明才能工作。电工在移除交换板的面板后,发现总线已经烧毁,把备用总线也烧毁了。我知道现在唯一的选择就是让IT服务在DR站点恢复运转,并重新评估我们的灾难恢复计划。

研究表明,75%的数据中心故障是人为错误,这意味着我们可以从他人的经验中学习,包括上述事件。
本文转自d1net(转载)

相关文章
|
数据中心
数据中心灾难恢复手册
看到了一篇关于数据中心恢复相关的文章,转载至此,虽然没有非常详细的解释原理和相关的操作说明,但看看还是有些认识的。 原文链接: 数据中心灾难恢复说明  PDF版本下载:  数据中心灾难恢复手册
675 0
|
28天前
|
人工智能 运维 监控
未来数据中心的自动化运维技术探索
随着信息技术的快速发展,未来数据中心的运维需求将变得更加复杂而多样化。本文将探讨自动化运维技术在未来数据中心中的应用,分析其优势和挑战,并探讨如何实现高效的自动化运维管理。
|
9月前
|
canal 缓存 otter
数据仓库 、数据中心相关技术知识和生态相关了解
数据仓库 、数据中心相关技术知识和生态相关了解
169 0
|
9月前
|
人工智能 运维 大数据
技术、应用、突破——一场液冷研讨会,助你把握数据中心液冷产业未来122.228.85
技术、应用、突破——一场液冷研讨会,助你把握数据中心液冷产业未来122.228.85
|
11月前
|
数据中心 云计算
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——云计算技术经历的三个阶段
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——云计算技术经历的三个阶段自制脑图
148 1
|
11月前
|
存储 容灾 安全
《医保行业容灾演练云上技术白皮书》——第三章 医保云容灾建设方案——3.2 省级数据中心建设框架
《医保行业容灾演练云上技术白皮书》——第三章 医保云容灾建设方案——3.2 省级数据中心建设框架