监测系统是数据中心的一面镜子

简介:
监控功能是数据中心的重要组成部分,通过监控系统可以对数据中心整体运行情况有全面的了解,并进行有效控制与管理。虽然无人值守数据中心、软件定义数据中心等新的概念涌现出来,但只是将控制权交给了机器,系统中依然需要对数据中心监控,采集各种运行参数,提供给控制中心,所以监控系统要完成数据采集、分析处理、存储、展示、使用户能实时掌握数据中心的基础设施运行情况。由于数据中心自身大规模高动态的特点,监测数据中心收集也面临着一些挑战,要不断丰富监测手段,采集到能够真实反映数据中心运行状态的数据,而不是获取假象。
 
数据中心要做好监测,需要具备三个特性:实时性,数据中心监测数据应当被实时地收集到,以便于数据中心及时地控制管理,这个实时性包括周期性轮询采集数据的时间,这个轮询周期越短实时性越高,周期越短,单次采集的数据不宜过大,还有部分数据是靠各种运行设备实时上报。可扩展性,在整个生命周期中,数据中心不可能一成不变,而且随着业务量的扩大,也有不断扩容的需求。监测数据收集系统应该方便调整,为现有的或是增加的新设备添加新的监测指标,根据数据中心变化,不断调整监测系统,不要让监测系统成为了摆设。智能性,监测系统不是采集完数据就了事,要具备数据分析能力,还要将采集的无效数据过滤掉,利用大树法则获得最有效的数据。比如采集机柜环境温度,在一个机房里会有成百个机柜,每个机柜温度不可能相同,有的差别甚至很大,这时就不能以点盖面,需要多采集不同机柜温度,同时反复多次采集,根据采集的数据再增加一些权重算法,从而计算得出合理数据。
 
数据中心内部各种系统很多,这也使得监测系统非常庞大,监测系统的设计异常复杂。以一个普通数据中心的监测系统来说,要包括供配电监控、环境空调监控、安防监控、运行数据监控、屏显中心、管理监控等等,可靠性越高的数据中心,监测系统越完善,监测的项目非常繁多。在表1里,列举了供配电监控的部分内容。
 
 
通过对供配电的监控,及时了解数据中心供电系统的运行情况,一旦市电发生断电,可以及时切换到蓄电池或者备用发电机组上,避免业务长时间中断。也可以将监测数据发到运行数据中心,由运维人员根据数据进行工作部署。在表2里,列举了空调环境监控主要内容。
 
 
通过对空调环境的监控,及时了解数据中心制冷情况,内部运行环境情况,为运行设备提供良好的运行环境,避免过冷或过热的环境影响到运行设备的使用寿命。数据中心里设备产生的热量非常大,需要空调及时将热空气排出去,否则对数据中心危害很大,甚至可能引发火灾事件,这方面已经有过历史教训。一个封闭性很好的数据中心机房,空调停转半小时,部分设备就可能出现宕机情况,有些设备自动保护不够好,持续的高温就可能造成线路短路,产生火花,引发火灾。拥有全面的空调监控系统,就可以避免这种情况发生。
 
在表3里,列举了数据中心屏显中心监测主要内容,一个往往是有个巨大的会议大厅,前面有一幅超大的屏幕,上面会显示各种各样的数据,这些数据代表了各个系统和业务的运转情况,一旦有故障可以及时地在屏幕上显示出来。屏显中心的所有数据都采集各个监测系统。一般屏显中心也是各路领导经常光顾的地方,通过屏显中心了解整个数据中心的运行状况以及数据中心的各种运行设施。
 
 
还有一个监测系统非常重要,就是管理监控,这主要是对数据中心进行有效管理时做参考。在表4里,列举了管理监控涉及的主要内容,这部分一般是由管理人员来控制,对数据中心进行全面管理,不仅仅业务层面,还有人员的培训、考核、考勤等等。
 
 
除了以上这些监测指标,还有消防、安防、日志管理、视频监控、门禁系统、账号管理等等,数据中心需要监测的内容非常多,上面只是将最为关键的部分拿出来做了介绍。这些监测系统涉及很多专业技术,有些设计还非常复杂,需要由专业团队才能完成部署,做一套完整的数据中心监测系统难度不亚于建造数据中心本身。一个数据中心监测系统做得好坏也直接决定了这个数据中心的运营水平。所以如果要对数据中心进行评价,监测系统往往是被考察的重要部分,这是数据中心水平的直接体现。
 
数据中心监测的根本目标是用尽可能少的运营成本获得尽可能高的系统可用性。高可用性是数据中心水平表现最为重要的标准,而监测系统就像高可用性管理的一双眼镜,有了它整个数据中心运行情况才能一目了然,高可用性的目标才具备实现的管理基础。

本文转自d1net(转载)
相关文章
|
1月前
|
机器学习/深度学习 存储 算法
利用机器学习优化数据中心冷却系统
【2月更文挑战第23天】 在数据中心的运营成本中,冷却系统占据了一大块。传统的冷却管理通常依赖于简单的规则或手动调整,无法适应复杂多变的热负荷和环境条件。本文提出了一种基于机器学习的方法来动态优化数据中心的冷却系统。我们设计了一个预测模型来估计未来的热负荷,并结合实时数据,通过优化算法调整冷却设备的工作状态,以降低能源消耗并保持适宜的运行温度。实验结果表明,该方法能够有效减少能耗,同时保证数据中心的冷却效率。
16 0
|
1月前
|
机器学习/深度学习 传感器 算法
利用机器学习优化数据中心冷却系统
【2月更文挑战第15天】 在数据中心运营效率的众多挑战中,冷却系统的优化是一个关键因素。本文将探讨如何应用机器学习技术来改善数据中心的冷却性能,减少能源消耗,并提高整体的可持续性。通过分析历史温度数据、服务器负载以及环境参数,构建预测模型来动态调整冷却需求,实现智能化管理。本研究展示了一种创新方法,不仅提升了数据中心运行效率,也为其他工业冷却系统提供了可借鉴的解决方案。
16 1
|
30天前
|
机器学习/深度学习 传感器 算法
利用机器学习优化数据中心冷却系统
【2月更文挑战第29天】 在本文中,我们探讨了如何应用机器学习技术来改善数据中心的能源效率,特别是针对冷却系统的优化。传统的数据中心冷却方法常常采用静态的、预设的策略,忽视了环境变化和负载波动的影响。通过集成机器学习模型,我们能够实时分析数据中心的操作状况,并动态调整冷却策略,以实现节能和性能的双重提升。文中详细介绍了所采用的算法框架、实验设置以及与传统方法的性能比较。
|
1月前
|
机器学习/深度学习 算法 数据中心
利用机器学习优化数据中心冷却系统
【2月更文挑战第17天】 在数据中心运营成本中,冷却系统占据了显著比例。本文通过探索机器学习技术在数据中心冷却系统中的应用,旨在提高能效并降低运营成本。首先介绍了数据中心冷却系统的基本原理和关键性能指标,随后详细阐述了如何通过监督学习和强化学习算法来预测冷却需求并实时调整冷却策略。文章通过案例分析验证了所提方法的有效性,并讨论了实施过程中面临的挑战与未来发展方向。
|
11月前
|
关系型数据库 Linux 网络安全
开源IDC数据中心资产管理系统RackTables部署篇(一)
开源IDC数据中心资产管理系统RackTables部署篇(一)
635 0
|
物联网 5G 数据中心
5G网络数据中心系统需要什么光模块?
前些时间也给大家分享了【5G超新时代,点燃了25G和100G光模块市场】这篇文章,感兴趣的朋友可以看看!接下来跟易天光通信一起看看5G网络的特点和25G/100G光模块发展趋势。 5G网络的特点有哪些? 5G移动网提供增强型移动宽带(eMBB)、超可靠低时延通信(uRLLC)、大 规 模 机 器 类 通信(mMTC)三大类业务,不同业务性能差异较大:eMBB 业务面向传统移动通信,带宽大;uRLLC 业务面向工业自动化等实时性控制类应用,时延低、可靠性高;mMTC 面向物联网应用,连接多、流量小。
1326 0