数据中心监控自动化中的两个常见问题

简介:

如今,数据中心越来越趋于自动化,并已成为数据中心良好运营的强大力量。以下列出在数据中心监控自动化中经常出现的两个主要问题。

数据中心监控自动化中的两个常见问题

问题1:房间里的大象

“房间里的大象”是指人们私密生活和公共生活中对于某些显而易见的事实,集体保持沉默的社会现象。人们在进一步深入自动化之前,无论是自动发现,报告交付或警报触发操作,必须做出一个关键点:在某些方面,它被称为DPR周期。DPR代表检测,预防和响应。

警报是工作人员在发生错误时捕获错误的方式,但是由数据中心工作人员来决定它们发生的原因,并找到一种防止错误再次发生的方法。当构建一个解决方案以自动响应警报并进行修复时,作为负责任的数据中心专业人员,还应该致力于分析情况的艰苦工作,以找到模式和根本原因。然后需要解决根本原因,并创建检查,以便知道是否再次出现问题。

对警报的自动响应保持企业的业务在所有的时间运行,并帮助确保知道你需要的时间,工作人员必须能够看到发生了什么,做的工作出来为什么会发生,所以可以防止它在将来发生。这样才不会出现“房间里的大象”问题。

问题2:内心恐惧

许多数据中心专业人员在第一次提出自动响应警报的想法时感到担心。而具有一个真正有活力的大脑的人会对这些警报进行仔细思考,然后谨慎采取行动。这种想法就像站在“自动化”海洋的边缘。有点令人望而生畏。但你必须相信不会被海水淹死,并且有能力一步步地尝试。这并不是一个全有或全无的命题,其风险也将会从零到全部。

与任何IT工作一样,有实施计划有时比实施(或在这种情况下是自动化)本身更重要。所以可以再谈谈这个实施计划:

  • 首先识别测试机器。无论是为这些目的而部署的实验室设备还是那些不太重要的志愿者,请设置警报,以便触发这些机器。
  • 学习使用反向阈值。虽然企业的最终警报将检查CPU的工作负载量大于90%,工作人员可能希望避免反复测试。而CPU的工作负载量小于90%将触发更多的可靠性,至少工作人员希望如此。
  • 查找复位选项。与上面密切相关,了解数据中心监控工具如何重置警报,以便再次触发。也许很可能会很多使用那个功能。
  • 详细情况。数据中心工作人员想要了解发生什么和什么时候可能发生。如果数据中心的工具支持自己的日志记录,请将其打开。在自动化中大量插入“我现在开始XYZ步骤”消息。虽然很乏味,但你会很高兴所做到的事情。
  • 自己处理警报。如果你认为会通过发送这些警报到服务器团队进行测试,事实上,你并不会把它发送到任何团队,而会认为自己可以处理这些警报。
  • 你真的不需要通过电子邮件触发那些警报。所有这一切都是在基础设施上造成额外的延迟和压力,以及如果你的警报同时启动多个消息,可能会产生其他问题,会将消息发送到本地日志文件和显示屏。
  • 分享警报提醒。现在,你可以通过对话与小组的其他人分享警报提醒。
  • 采用对话。这个过程将涉及与其他人交谈。设置自动化是协作的,因为你和那些每天都在一起工作的人都应该同意从基本功能到消息格式的一切。
  • 将相位器设置为满。一旦自动化在企业的测试系统上工作,计划通过分阶段的方法实施。使用相同的机制,你用来限制几个警报,你向网络扩展,也许10-20个系统。并且你再次测试观察结果。然后你扩大到50个左右。确保你和收件人都很满意所看到的结果。记住,在这一点上,团队正在接收常规警报,但你仍然应该看到之前提到的详细消息。你应该与团队进行审查,以确保你认为发生的是真正发生的事情。

遵循这些指南,任何自动响应应该有很高的成功机率,或者至少你会避免陷入糟糕的自动化,不会产生太多的损害。采用自动化的一个很好的经验法则是用最小的努力获得最大的回报。无论你现在看到的是什么基于系统的事件,这可能是你可以获得的最大影响。另一个找到自动化想法的办法就是聆听团队的想法,考虑是否有哪些用户投诉是由系统故障驱动的。如果是这样,它可能是解决自动化出现问题的机会。最后,不要计划得太远。你可能现在感到担心在获得一两个成功之后,你会发现团队正在寻求你的建议,以你的方式获得帮助。


本文作者:佚名

来源:51CTO

相关文章
|
4月前
|
XML Prometheus 运维
自动化监控有哪些开源系统
自动化监控有哪些开源系统
66 1
|
28天前
|
人工智能 运维 监控
未来数据中心的自动化运维技术探索
随着信息技术的快速发展,未来数据中心的运维需求将变得更加复杂而多样化。本文将探讨自动化运维技术在未来数据中心中的应用,分析其优势和挑战,并探讨如何实现高效的自动化运维管理。
|
2月前
|
监控 测试技术 API
自动化测试工具与电脑桌面监控软件的集成:Selenium与Python的无缝整合
在当今数字化时代,软件质量保证是每个软件开发团队都必须面对的重要挑战之一。自动化测试工具和电脑桌面监控软件的结合,为开发团队提供了一种有效的方式来确保软件的稳定性和性能。本文将介绍如何利用Python编程语言中的Selenium库,与桌面监控软件进行无缝整合,以实现对应用程序的自动化测试和桌面监控。
184 5
|
2月前
|
监控 Java 持续交付
内部网络监控软件的Groovy应用:持续集成与部署的自动化监控
在当今高度数字化的环境中,对于内部网络的监控变得至关重要。为了保证系统的稳定性和安全性,监控软件的自动化变得越来越必要。本文将介绍如何利用Groovy编程语言实现持续集成与部署的自动化内部网络监控软件,并通过代码示例展示其实现方式。
252 3
|
3月前
|
运维 监控 测试技术
ansible 自动化运维监控方案
本文介绍如何利用ansible实时或自动采集受控主机的信息
|
5月前
|
监控 数据管理 Shell
Shell脚本编写:自动化监控上网行为软件的数据备份与恢复
在今天的数字时代,监控上网行为软件变得越来越重要。无论您是个人用户还是企业,了解和管理上网行为数据对于网络安全和资源优化至关重要。本文将介绍如何使用Shell脚本编写一个自动化数据备份与恢复系统,用于监控上网行为软件的数据,以及如何自动将这些数据提交到网站。
158 1
|
6月前
|
运维 监控 Python
使用Python轻松自动化电脑监控软件的部署
在数字化时代,计算机监控软件是确保系统正常运行的关键组成部分。无论是家庭用户还是企业,都需要一种简便的方法来监控计算机的性能和稳定性。本文将向您介绍如何使用Python轻松自动化电脑监控软件的部署,通过示例代码来演示如何实现这一目标。
159 0
|
8月前
|
运维 监控 Linux
【运维知识进阶篇】zabbix5.0稳定版详解6(zabbix自动化监控:自动发现+自动注册+监控项目主动式)(下)
【运维知识进阶篇】zabbix5.0稳定版详解6(zabbix自动化监控:自动发现+自动注册+监控项目主动式)(下)
104 0
|
8月前
|
运维 监控 数据库
【运维知识进阶篇】zabbix5.0稳定版详解6(zabbix自动化监控:自动发现+自动注册+监控项目主动式)(上)
【运维知识进阶篇】zabbix5.0稳定版详解6(zabbix自动化监控:自动发现+自动注册+监控项目主动式)
166 0
|
11月前
|
存储 监控 网络协议
「数据中心」数据中心脊页架构:数据中心结构管理、自动化和总结
「数据中心」数据中心脊页架构:数据中心结构管理、自动化和总结