数据中心业务中断 多与运营流程有关

简介:

TiePoint-BKM工程设备公司运营解决方案总监David Boston表示,三分之二的数据中心业务中断与其运营流程有关,而不是基础设施系统。

如今,许多关键行业在发展和运营过程中投入了大量的时间和资源进行培训和教育,如核工业,军事和民用航空,甚至是司机,而数据中心行业却没有这么多的时间和资源进行培训。

TiePoint-BKM工程设备公司运营解决方案总监David Boston表示,三分之二的数据中心业务中断与其运营流程有关,而不是基础设施系统。他说,"大多数人都意识到流程导致了大部分的停机时间,但很少有人主动全面解决这些问题。这对我们的行业来说有点独特。" Boston计划在7月12日在芝加哥艺术学院的数据中心世界会议上阐述防止数据中心中断的策略。

他建议,数据中心管理层经常被迫更换老化的基础设施系统和组件,或引起重复问题的系统,并且习惯于增加系统容量以适应负载增长。在基础设施方面,冷却系统中的机械故障是发生最多的故障,但电气系统故障却导致更多的停机事件,因为在这么短的时间很难作出迅速的反应。

他说,"这些努力都需要得到外界的工程支持,所以管理所需要的时间通常只限于项目的确定和监督。"虽然开发过程与数据中心中断的最常见的原因可能是更加费时的管理,但确实需要花费大量的时间。以下是Boston推荐的三大问题和最佳实践:

1. 设施的工作人员数量和轮班与目标的关键操作正常运行时间未能匹配。

最佳实践:量化高级IT管理人员的正常运行时间目标,确保人员匹配。Boston建议每班轮班两人,其他人员负责培训和程序项目。如果需要最大的正常运行时间,则只能在偶然的停机事件可接受的情况下才使用全天值班。

2.没有具体的培训计划,包括设施开始运营前的专业练习时间。

最佳实践:指派一个团队成员作为培训项目的管理人员,并及时协调所有团队成员的每月应急反应培训。通过实践操作来轮换每个团队成员,在维护活动之前隔离基础架构系统,并在预防性维护日历上标注活动,将系统恢复到服务状态。

3.不了解具体程序不足。

最佳实践:指派一个团队成员作为程序的所有者,随时随地开发(或与顾问合作开发)几乎每个关键设施所需的100到200个关键程序。每一个都确认其技术准确性和验证,所有的程序都要让团队中最不知情的人都清楚地了解。

Boston评论道:"我一直怀疑,许多公司起初都不愿意花费时间实施上述方案。

组织绝对应该在关键业务方面实施这些流程,而这些流程是对组织的收入或信誉造成负面影响的流程。然而,对于非关键业务,他建议可以采取快速恢复的方法。


本文作者:佚名

来源:51CTO

相关文章
|
存储 安全 数据库
云计算将如何改变数据中心运营与发展
如今,信息技术一直在不断发展。而这种技术进步继续以极快的速度发生,需要更快的处理和大量的数据存储,而在过去二十年中引入了改变数据中心设计和部署的云计算模型。
131 0
云计算将如何改变数据中心运营与发展
|
达摩院 大数据 数据中心
阿里巴巴浙江云计算仁和数据中心正式运营
9月16日,全球规模最大的全浸没式液冷数据中心——阿里巴巴浙江云计算仁和数据中心正式投入运营,它也是我国首座绿色等级达5A级的液冷数据中心。作为阿里巴巴在浙江省杭州市的首座超级云计算数据中心,仁和数据中心将有效辐射长三角经济带,为新基建注入强动力。浙江省发改委副主任胡奎、杭州市委常委、余杭区委书记张振丰、阿里云智能总裁张建锋出席当天的开服仪式并致辞。
阿里巴巴浙江云计算仁和数据中心正式运营
|
27天前
|
人工智能 运维 监控
未来数据中心的自动化运维技术探索
随着信息技术的快速发展,未来数据中心的运维需求将变得更加复杂而多样化。本文将探讨自动化运维技术在未来数据中心中的应用,分析其优势和挑战,并探讨如何实现高效的自动化运维管理。