数据中心NFV技术可靠性研究

简介:

数据中心NFV是通过使用x86等通用性硬件以及虚拟化技术,来承载很多功能的软件处理,使网络设备功能不再依赖于专用硬件,降低网络设备成本。NFV是网络运营商主推的网络虚拟化技术,这有利于大幅降低网络运营商的设备采购成本。不过,运营商需要的是高可靠性的网络,对网络可靠性要求最高,但看看我们应用了虚拟化技术的表现,2015年十大云计算宕机的收入损失超过了31 Million美元,显然这样的技术无法满足运营商的可靠性要求。运营商当然不愿意放弃自己提出来的NFV,更何况还有SDN跃跃欲试,那该怎么办?本文给出了一些提升NFV可靠性的思路。

数据中心NFV技术可靠性研究

我们需要先来看看部署了NFV 之后,对可靠性的判断准则是否发生了变化。NFV网络中增加了软件控制部分,这样可靠性评估准则要考虑服务停机时间与硬件停机时间的差异,要建立弹性软件的评估方式,这样当硬件检测到故障时,还要通报给NFV,这个过程要有延迟时间,所以需要故障检测和切换技术要比以前更精确,之前故障检测是秒级,现在就需要毫秒级,小于50MS。之前故障切换是秒级,现在就需要微秒级,在几百微秒以内。部署NFV之后,需要用新的工具来解决故障告警、根本原因分析和恢复,这是因为虚拟化技术使得构成服务的部件分散在网络多个不同的地方,检测麻烦不会像观察红灯一样简单,需要软件综合分析。

NFV环境下要提升可靠性,需要具有三个方面的处理机制:一是故障检测预测,通过对数据控制流检查、性能监视、网络设备日志分析、异常检查等等,判断有无发生故障;二是故障诊断定位,一旦发现故障即刻启动故障定位,通过分析确认哪里发生了故障,故障的相关性和优先图;三是故障恢复,根据故障位置,启动故障恢复程序,可以进行业务迁移、冗余备份、数据保护等恢复动作,通过这三步来达到提升NFV可靠性的目的。这样说很简单,实际实现起来是非常难的。就拿故障诊断来说,取决于故障检测的准确性,很多网络故障,不少的网络技术专家分析很久都无法明确原因,现在靠机器来完成,难度更大,要先将人的分析经验输入到机器中进行学习,然后由机器代替人来做处理,只有这样切换才来记得,任何一个环节有人为的介入,处理时间都会被拉长,业务就会受到影响,NFV采用软件自动控制的方法,可以将故障发现、排查和隔离过程控制到毫秒级,达到网络高可靠性的目的。

仅具备这些处理机制还远远不够,NFV环境下故障检测的数据规模大,硬件和软件解耦导致涉及的网络层次更多,很多数据还可能不能反映出故障原因,甚至网络已经故障了这些数据还表现正常,这样就不会触发故障诊断。还有NFV环境下,发生故障传播快和容易相互干扰,易于产生不可预知的故障,这些都会给诊断故障带来很大难度,就算分析出来故障位置,不同的软件可靠性评价准则不同,执行的恢复动作也有差异。有些故障是需要中断业务恢复的,有些故障是做局部微调就可以恢复的,当需要做这种恢复决策时,就算是人为评估都很难把握,更何况将这个决策权交给软件去做,误判一定时有发生。NFV技术也是一种全新的网络技术,新的系统意味着有更多的软件BUG。

为了进一步提升NFV技术的可靠性,还要在多个方面下功夫。运营商网络对可靠性的要求是5个9,而x86的可靠性通常只有2~3个9,所以基于x86实现的NFV可靠性不够高。这时可以考虑虚拟机分散开来,将同一个网元功能的多个虚拟机散布到异址物理设备上,降低单点故障对网络的影响。通过对虚拟机进行热备份,专有设备备份及建立通用备份池对多个网元的虚拟机进行备份的方式,提高网元可靠性。还要在故障检测上下功夫。比如支持黑盒故障的检测,支持未知错误的监测,检测时间要快,还有就是可扩展性好。将这些检测数据获取到了以后,通过机器学习的方式进行检测,将低维数据变化到高维数据。一般通过机器学习的检测有:有监督的学习,无监督学习和半监督学习,它们区别在于是否需要标签训练数据。在NFV技术中一般采用无监督学习方式。通过机器学习就可以引入很多的数理统计技术,来增强分析的准确性,这些技术可以来自基于统计、基于深度,基于密度和聚类等等方面综合分析出来结果。NFV技术可以采用动态自适应快速故障检测技术,如SOM算法、LOF算法、Bayesian Network算法等。对CMS、CNFM等管理系统同样采用备份、带外管理等机制,进一步提升系统可靠性。当通过这些一系列的软件得到故障原因后启动自动告警、自动切换等一系列措施,实现系统故障自愈,还需要支持在网络软硬件解耦后进行端到端的故障定界定位,对各个组件的安全信息比如日志、告警和异常输出等进行智能分析和关联,快速定位或提前预测系统安全隐患。谷歌数据中心的建设思路在可靠性方面考虑良多,在处理宕机这类故障的时候,可以依靠软件迅速地平滑过度,实现任务转移,以最快的速度保证SLA指标。

NFV将是一种革命性的新技术发展趋势,将对网络技术发展带来深远的影响。NFV技术在数据中心,尤其是运营商的数据中心领域应用获得了极大的认可,是运营商一直在推广的网络技术。虽然NFV在可靠性方面还有待提升,它真正走向市场和普及,还会面临众多的问题和挑战,但这并不妨碍很多运营商愿意尝试,NFV技术必将快速走向成熟。


本文作者:佚名

来源:51CTO

相关文章
|
1天前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
5天前
|
机器学习/深度学习 运维 监控
利用机器学习优化数据中心能效的研究
【4月更文挑战第19天】在数据中心的运营成本中,能源消耗占据了显著比例。随着能源价格的不断攀升与环境保护意识的加强,如何降低数据中心的能耗已成为研究的热点。本文提出了一种基于机器学习的方法来优化数据中心的能效。通过分析历史运行数据,构建预测模型,并结合实时监控,动态调整资源分配策略以达到节能目的。实验结果表明,该方法能有效减少能源开销,同时保证服务质量。
|
6天前
|
机器学习/深度学习 资源调度 调度
利用机器学习优化数据中心能效的策略研究
【4月更文挑战第18天】 在数据中心的运营成本中,能源消耗占据了显著比例。为了降低这一开销同时减少环境影响,本文提出一套基于机器学习技术的数据中心能效优化策略。通过分析数据中心的能耗模式和环境变量,构建了一个预测模型来动态调整资源分配,实现能源使用的最大效率。与传统方法相比,本研究提出的策略在保证服务质量的前提下,能有效降低能耗,并具备自我学习和适应的能力。
|
1月前
|
存储 定位技术 数据中心
探索现代数据中心的冷却技术革新
在这篇文章中,我们将深入探讨现代数据中心冷却技术的最新进展。随着数据量的激增和计算能力的提升,数据中心的能效和散热问题变得日益重要。文章将介绍几种创新的冷却方法,包括液冷系统、热管技术和环境冷却集成设计,并讨论它们的工作原理、优势以及面临的挑战。通过这些技术的比较,我们旨在为数据中心管理者提供决策支持,以实现更高效、可持续的运营。
33 1
|
1月前
|
人工智能 运维 监控
未来数据中心的自动化运维技术探索
随着信息技术的快速发展,未来数据中心的运维需求将变得更加复杂而多样化。本文将探讨自动化运维技术在未来数据中心中的应用,分析其优势和挑战,并探讨如何实现高效的自动化运维管理。
|
9月前
|
canal 缓存 otter
数据仓库 、数据中心相关技术知识和生态相关了解
数据仓库 、数据中心相关技术知识和生态相关了解
169 0
|
9月前
|
人工智能 运维 大数据
技术、应用、突破——一场液冷研讨会,助你把握数据中心液冷产业未来122.228.85
技术、应用、突破——一场液冷研讨会,助你把握数据中心液冷产业未来122.228.85
|
11月前
|
数据中心 云计算
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——云计算技术经历的三个阶段
阿里云最新产品手册——阿里云核心产品——云数据中心专用处理器CIPU——云计算技术经历的三个阶段自制脑图
148 1
|
11月前
|
存储 容灾 安全
《医保行业容灾演练云上技术白皮书》——第三章 医保云容灾建设方案——3.2 省级数据中心建设框架
《医保行业容灾演练云上技术白皮书》——第三章 医保云容灾建设方案——3.2 省级数据中心建设框架
|
11月前
|
人工智能 运维 大数据
维谛技术(Vertiv):可量化的全生命周期,赋予数据中心新的价值
维谛技术(Vertiv):可量化的全生命周期,赋予数据中心新的价值