Hadoop迎来Spark Stream 激发大数据应用新变革

  1. 云栖社区>
  2. 博客>
  3. 正文

Hadoop迎来Spark Stream 激发大数据应用新变革

青衫无名 2017-07-03 11:37:00 浏览781
展开阅读全文

作为数据中心市场毋庸置疑的领导者,英特尔对数据中心的看法吸引了行业人士的密切关注,也在很大程度上代表了行业未来的大趋势。

“信息与通讯技术正处在一个激动人心的时代,这集中体现在三个变化上,就是云计算、网络转型以及数据分析,正是这三大变化驱动了数据中心行业的发展。”英特尔公司高级副总裁、数据中心事业部总经理柏安娜(DianeM. Bryant)在IDF主题演讲中如此指出。

 云将无所不在

作为一项颠覆性技术,云计算已经出现了多年时间,展现出良好的成长性。其一,公有云上的交互会继续增加,例如微信红包仅推出2年,现在每个月可以发出40亿个;云端新服务每天都在推出,有越来越多的企业诞生在云中;其二,消费级服务是公有云主流,目前全球2/3的云计算能力在为消费者提供服务;其三,传统企业在私有云上的投资将继续增加,以增加效率和灵活性,并且利用云来创造新收益。

“未来我们会拥有数以十万计的云,能够交付数以百万计的服务,连接数十亿的设备,并产生几十亿TB的数据。而且云将大大扩展数字世界的边界,使得技术具有更大的、无处不在的可及性。”柏安娜表示。

要想迅速设置一个云环境并不简单,云技术的起点就是要拥有一个非常高效的技术架构,因为云解决方案要求基础设施能够共享并且具备自动化,能以低成本交付高性能,同时也能够促成服务的快速部署,既具备超大规模的敏捷性还能使数据中心进行更优运行。

因此,英特尔开发出了机柜式架构(RSA),能够实现资源的池化,根据工作的负载需求进行部署,并且推出了一个硬件抽象层,通过开放的API实现灵活的模块化基础架构,将正确的资源投放到工作负载上。柏安娜表示,英特尔正和VMI、微软、浪潮、戴尔、HPE等软件开发商和OEM厂商合作打造基于机柜式架构的解决方案,例如联想已经推出了超大规模管理和调度解决方案,让云计算部署和使用更加简单。

网络转型加速

灵活高效的计算基础架构背后,必须要有高带宽和低延迟的网络。柏安娜指出,当前网络不足以满足与日俱增的流量和应用需求。4G时代业界对NFV和SDN做了很多投资,为5G到来做准备。5G是无线通信网络的革命,不仅容量千倍地增长、峰值速率50倍的增长和延迟40倍的降低,还将支持各种新应用和场景服务。

比如对实时业务的支持,5G支持无人驾驶汽车,远程医疗服务,或者是在危险环境中远程重型设备的操控,也能够支持消费者服务和应急管理响应的一些政府服务、城市服务。“但是想做到这一切,网络必须要转型,网络必须实现虚拟化、软件定义和云化。”柏安娜说,网络连接是至关重要的,企业使用云需要始终不断地互联,从而不断推出新服务,找到新的收入来源。

为了促进网络转型,英特尔和开发者进行合作,在开源解决方案当中进行投资。“我们知道一旦有了标准的、开源的技术创新,我们就会看到技术创新速度明显加快;同时,要不断地推进我们的NetworkBuilder计划,为NetworkBuilder社区成员提供培训,给他们提供考架构和蓝图,来适配各种特殊的客户使用场景。最后,我们也要和成员一起进行市场推广,从而做大需求。”

英特尔在最近推出了至强处理器E5v4产品家族,其至强资源分配技术可以使网络功能充分虚拟化,并且带来了一系列的QoS能力。华为云核心网产品线副总裁王洪利也指出,基于x86的硬件已成为主流。在过去的十年里,英特尔一直和华为长期合作,华为云核心网已经走过虚拟化迈向了全面云化的NFV阶段,与全球用户签署了将近50个云化商用合同。

数据分析兴起

柏安娜提到的第三个趋势是数据分析,这也是英特尔当前的研发重点。柏安娜认为,数据是改变游戏规则的关键因素,原因在于云计算能够将服务进行连接并提供出去,且互联性得到了极大提升。此外,数据存储变得更便宜,过去十年服务器成本下降超过40%,存储成本下降超过90%,“摩尔定律告诉我们有足够的成本来存储海量的数据”。

在数据分析领域,英特尔的产品线横向扩展和纵向扩展,提供了非常丰富的产品,包括全套的微处理器的产品,从凌动、酷睿到至强、至强Phi,而且使用的是一个无缝的架构。除了处理器外,英特尔还提供了软件方面的支持,包括各种软件开发包,以加快各种应用交付速度。同时,英特尔还与各种开源组织合作,如Hadoop、Spark等,为数据分析应用提供优化和支持。

柏安娜表示,英特尔的可信分析平台(TAP),是一个开源的平台级服务,专门适合数据科学家和应用开发人员,能够为用户提供预测性的模型和数据模型服务。“我们欢迎大家参与TAP做出贡献,使得整个分析解决方案开发和部署变得更加简便,以此为基础,来为数据分析市场提供更多服务。”

这些产品全面支持当前蓬勃兴起的数据分析类应用,例如机器学习。科大讯飞研究院副院长王智国博士指出,科大讯飞的人工智能开放平台每天在线交互达到近20亿次,这些工作都离不开一个强大的计算平台。“我们和英特尔更加深度的合作,在源头上进行软硬件一体化整合,必将能够创造出更多更先进的人工智能解决方案,共同推动产业发展。”

批处理本是大型机时代的主题,近十年来随着HadoopMapReduce的关注度逐渐增加,批处理现在又重新成为热门主题。但是 Hadoop分布式供应商的高级管理人员认为,ApacheSpark和其它流处理架构正在改变现状。

JackNorris是MapR公司前任首席营销官及现任数据和应用高级副总裁,他认为,随着ApacheSpark加入Hadoop,我们将看到更多实时应用和批处理架构,事件流与大数据存储是配套的。

MapR公司与Hortonworks公司、Cloudera公司一起共同打造Hadoop并带来了商业价值。而现在,SparkStreaming和其它相关技术的出现给大数据应用带来了变化,这似乎刺激了Hadoop生态系统新一轮的变革。

Spark已经成为了原生Hadoop组件特别有用的补充。Norris估计MapR的Hadoop分布式用户有一半正在使用Spark,可能用于生产环境的不同场景。

他表示,Spark引发了一连串兴奋点,其中一部分原因是因为MapReduce编程比较困难,在早期MapReduce编程基本就是Hadoop计算的代名词。

“Spark使开发变得相对容易了。它引入了新的API,支持使用Scala和Python编程语言,这样开发应用就更方便了。同时,它还帮助实现了流分析的结构化,”Norris补充道。

Spark可以监视到事件到达并且执行自动聚合和过滤,从而把原始数据转化为有用信息,Spark使这些工作变得更加容易。Norris表示,一些应用由于整体系统限制不得不在批处理模式下工作,但是这种情况正在改变。



本文转自d1net(转载)

网友评论

登录后评论
0/500
评论
青衫无名
+ 关注