机器学习工具在数据中心的应用与发展

简介:

在互联网诞生之初,数据中心规模很小并且很简单。一个大型电子商务服务数据中心仅用几个19英寸机架来部署所需的服务器,存储器,以及网络设备。如今,超大型数据中心成千上万的硬件设备部署在数千个机架上。随着数据中心设计的变化,这些大型数据中心或建在靠近大型人口中心,或建在电力廉价的偏远的地区。

随着数据中心运营的自动化的发展,像AWS或微软 Azure这样的公共云供应商所雇用的高级数据中心工程师越来越少,数量通常比安全人员和普通技术工人更少。更少的人员管理更多服务器,这意味着监控数据中心电力和冷却基础架构需要更多依赖传感器,这些现在都被称为物联网硬件。这些硬件有助于在一定程度上识别问题,但是在很多情况下,传感器并不能代替经验丰富的设施工程师。例如,通过声音辨别设备运行的情况,通过声音还可以了解哪个个风扇将出现故障或通过水滴的声音来定位泄漏的地方等等。

谷歌公司为机器学习而定制的采用张量处理器(TPU)的服务器机架

谷歌公司为机器学习而定制的采用张量处理器(TPU)的服务器机架

数据中心管理人员需要更多的传感器来监控现代数据中心基础设施,新一代应用程序旨在通过将机器学习应用于物联网传感器网络来来填补这一空白。这个想法是将经验转变成规则来帮助传感器辨析声音和影像,例如,为数据中心增加一个新的自动化管理层,可以预测和防止数据中心基础架构的故障。 451 Research公司分析师Rhonda Ascierto表示:“快速的恢复时间和有效的容量配置也可以降低数据中心风险。”

结合DCIM和多样性的数据

第一步是利用数据中心基础设施管理或DCIM软件中的预测分析。以位于加利福尼亚州奥克兰的一家名为Vigilent公司的软件为例。“控制系统基于机器学习软件,用于确定变量之间的关系,如机架温度,冷却单元设置,冷却能力,冷却冗余,功耗和故障风险。它通过打开和关闭各相关单元来调节冷却单元,包括变频器(VFD),上下调节变频器,以及调节单元的温度设定值。”Ascierto说。它使用无线温度传感器,并预测如果操作员采取某些措施会发生什么,例如关闭冷却单元或增加设定点温度。

另一个例子是英国Oneserve Infinite公司,该公司将传感器与多种数据点相结合,例如使用天气条件,以提供称之为“预测性现场服务管理”的Exeter.其目的是预测维护要求,避免故障停机,并将停机时间降至最低。 Oneserve公司首席执行官Chris Proctor表示,通过应用这些技术,可以同时处理战略规划和采购。“数据中心将能够更准确,有效地管理资产和资源。”(据悉这种功能尚未在任何数据中心中使用。)

Oneserve公司更关注的是维护问题,跟踪了解过去维护中的问题,允许用户详细地说明每次出现问题的地方。在现在,这依然是一种非常费时费力的人工操作方法,但是将来工作人员会利用这种数据来训练机器学习系统。

挖掘人类的知识

将传感器数据与运维经验相结合的例子是圣荷西的LitBit公司。根据该公司创始人兼首席执行官Scott Noteboom的说法,他们曾经为雅虎和苹果公司提供数据中心战略,LitBit公司的数据中心人工智能或DAC(数字模拟转换器),允许运营商对机器进行培训和调整,向工作人员学习可以获得响应数据中心的事件的能力,从而提醒操作人员或最终自动执行操作。LitBit公司方法的关键是采用一种辅助学习形式,当系统检测到新的异常事件时,系统会向操作人员发出警报,然后运营商将来制定一套对这些事件做出反应的规则。为了收集数据,LitBit公司有一个移动应用程序,可以接受视频,然后将其转换成数千个图像进行培训。

这家初创公司提供了一个托管云服务,可以利用许多用户的匿名数据来构建更复杂和更准确的模型。一些客户会将他们的训练模式进行保密,而另外一些客户可能会将其作为额外的收入来源对外出售。正如Ascierto所指出的那样,“数据中心管理数据的价值在大规模聚合和分析时会倍增。通过将算法应用于许多客户聚集的大型数据集,包括不同类型的数据中心和不同的位置,供应商可以预测设备何时出现故障,以及何时会出现冷却阈值。

当具有知识经验的操作人员不在身边时,一些隐含的知识可以帮助系统在操作中来识别问题并做出更快的反应。数据中心人工智能可能不会完全替代数据中心工作人员,但它可以不断地增强技能帮助运维人员解决问题。

这个领域还不成熟,但发展速度很快。对传感器进行机器学习正在迅速发展,并被广泛应用于各行各业。微软研究部门一直在与Sierra 系统公司合作,开发基于机器学习的油气管道缺陷的音频分析,利用其认知工具包来帮助对出现的异常进行分类。

基于人工智能的数据中心管理服务是新兴技术,目前还在发展中,还需要进行大量的培训。 Ascierto指出,企业的DCIM软件可能需要更多的传感器。 “如果企业想利用人工智能进行端到端冷水机组到机架的决策,那么其设备以及环境传感器和电气仪表将需要安装声学和振动传感器。如果目标是优化和自动化冷却单元的设定点温度,则可能每个机架(顶部,中间,底部)需要多个环境传感器。

人工智能系统正式交付使用还将需要一定的时间,就像数据中心招募的新的工作人员一样,不过类似的机器学习工具终将可以真正的帮助您运营数据中心。


本文作者:李超  

来源:51CTO

目录
相关文章
|
1月前
|
机器学习/深度学习 监控 算法
利用机器学习优化数据中心的能源效率
【2月更文挑战第27天】 在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着人工智能技术的进步,特别是机器学习(ML)算法的发展,出现了新的机会来优化数据中心的能源消耗。本文探讨了如何通过应用机器学习模型对数据中心的能源使用进行实时监控和预测,进而实施节能策略。文中详细分析了不同类型的机器学习算法,并提出了一套基于预测分析的动态能源管理框架。通过仿真实验验证了所提出方法的有效性,结果表明,与传统管理手段相比,该框架能够显著提高数据中心的能源效率,降低运营成本。
37 3
|
1月前
|
机器学习/深度学习 存储 算法
利用机器学习优化数据中心冷却系统
【2月更文挑战第23天】 在数据中心的运营成本中,冷却系统占据了一大块。传统的冷却管理通常依赖于简单的规则或手动调整,无法适应复杂多变的热负荷和环境条件。本文提出了一种基于机器学习的方法来动态优化数据中心的冷却系统。我们设计了一个预测模型来估计未来的热负荷,并结合实时数据,通过优化算法调整冷却设备的工作状态,以降低能源消耗并保持适宜的运行温度。实验结果表明,该方法能够有效减少能耗,同时保证数据中心的冷却效率。
16 0
|
1月前
|
存储 机器学习/深度学习 Apache
如何将Apache Hudi应用于机器学习
如何将Apache Hudi应用于机器学习
22 0
|
2天前
|
机器学习/深度学习 资源调度 调度
利用机器学习优化数据中心能效的策略研究
【4月更文挑战第18天】 在数据中心的运营成本中,能源消耗占据了显著比例。为了降低这一开销同时减少环境影响,本文提出一套基于机器学习技术的数据中心能效优化策略。通过分析数据中心的能耗模式和环境变量,构建了一个预测模型来动态调整资源分配,实现能源使用的最大效率。与传统方法相比,本研究提出的策略在保证服务质量的前提下,能有效降低能耗,并具备自我学习和适应的能力。
|
22天前
|
机器学习/深度学习 数据采集 算法
利用机器学习优化数据中心的能耗管理
在数据中心管理和运营领域,能耗优化是提高经济效益和环境可持续性的关键。本文提出了一种基于机器学习的方法来优化数据中心的能源消耗,通过实时监控与智能调节系统参数以降低总体能耗。研究采用多种算法对比分析,包括监督式学习、非监督式学习以及强化学习,并在此基础上设计出一套综合策略。该策略不仅提升了能效比(PUE),还保证了系统的高可靠性和性能稳定性。文章的结构首先介绍数据中心能耗管理的重要性,然后详细阐述所提出的机器学习模型及其实现过程,最后通过实验结果验证了方法的有效性。
|
26天前
|
机器学习/深度学习 传感器 监控
利用机器学习优化数据中心能效
在数据中心管理和运营中,能效优化是减少能源消耗、降低运营成本的关键。本文探讨了应用机器学习技术对数据中心的能效进行实时监控和优化的方法。通过分析历史数据和实时参数,构建预测模型来指导冷却系统的调整,实现智能化能源管理。结果表明,该方法可以显著提升数据中心的能源使用效率,为绿色计算提供技术支持。
14 2
|
29天前
|
机器学习/深度学习 资源调度 算法
利用机器学习优化数据中心能效的策略
【2月更文挑战第31天】 在云计算和大数据的时代,数据中心作为核心基础设施,其能效管理已成为技术创新的前沿话题。本文旨在探讨通过机器学习技术优化数据中心能效的可能性与实践策略。通过对现有数据中心运行模式的分析,结合机器学习在能源消耗预测、资源调度和故障检测等方面的应用案例,我们展示了如何实现智能化的能源管理,以及这些技术如何帮助降低运营成本并减少环境影响。文中不仅详细阐述了机器学习模型的构建过程,还讨论了实施中的挑战及未来发展方向。
|
29天前
|
机器学习/深度学习 资源调度 数据挖掘
利用机器学习优化数据中心的能效
【2月更文挑战第30天】在本文中,我们探讨了如何通过应用机器学习技术来优化数据中心的能源效率。传统的数据中心管理方法往往依赖人工经验和定期维护,而机器学习提供了一种自动化和智能化的解决方案。文中首先介绍了数据中心能耗的主要来源,随后详细阐述了机器学习模型在预测和管理数据中心资源中的应用。通过对历史数据的学习和模式识别,机器学习不仅能够准确预测未来的负载变化,还能实时调整硬件配置以最小化能耗。最后,文章展示了一个基于机器学习的能效管理系统原型,并通过实验数据分析验证了该系统的有效性。
|
1月前
|
机器学习/深度学习 传感器 算法
利用机器学习优化数据中心冷却系统
【2月更文挑战第29天】 在本文中,我们探讨了如何应用机器学习技术来改善数据中心的能源效率,特别是针对冷却系统的优化。传统的数据中心冷却方法常常采用静态的、预设的策略,忽视了环境变化和负载波动的影响。通过集成机器学习模型,我们能够实时分析数据中心的操作状况,并动态调整冷却策略,以实现节能和性能的双重提升。文中详细介绍了所采用的算法框架、实验设置以及与传统方法的性能比较。
|
1月前
|
机器学习/深度学习 算法 调度
利用机器学习优化数据中心能效
【2月更文挑战第28天】 在本文中,我们将探讨如何应用机器学习技术来提高数据中心的能效。通过分析历史能耗数据和环境参数,构建预测模型,并基于这些模型实施动态能源管理策略。我们展示了一种自适应算法,该算法能够根据实时工作负载和外部温度变化自动调整冷却系统,以最小化能源消耗。实验结果表明,采用机器学习方法可以显著降低数据中心的PUE(功率使用效率)值,进而减少运营成本,并对环境可持续性产生正面影响。