实现Spark部署 依赖供应商还是"自力更生"?

简介:

Apache Spark用户经常面临一个困境:继续获取来自供应商的支持还是更新版本,使用具有更新功能的快速移动的开源软件?

Novantas公司将Spark数据处理引擎作为商业Hadoop发行版的一部分。这样使得分析服务和软件提供商与Spark版本的Hadoop软件包支持的Spark版本捆绑在一起,因此,它不一定能立即访问新的Spark功能

例如,Novantas在今年年初开发的基于Hadoop的应用程序中使用了Spark 1.4,以帮助银行的分析团队在内部系统中找到相关的客户和财务数据。该版本由Apache软件基金会于2015年6月发布,去年9月被Spark 1.5取代,1月被1.6取代。但是要升级,Novantas将不得不通过Cloudera放弃Spark支持。

“我们不想使用不受支持的版本,”纽约公司Novantas解决方案技术部门CTO和工程总监Kaushik Deka说。这是因为应用程序是该部门第一次真正使用Hadoop和Spark。坚持使用Spark 1.4不太理想。Deka说,他希望当Novantas移动到一个新的技术版本可以解决问题。

这样的考虑在大数据环境中是常见的,其通常涉及以快速的速度更新的开源技术。Spark的情况尤其突出:在2014年7月到2016年7月之间,通过Apache共有18个版本,Spark 2.0版本一般都可以使用。

为了更好地使用新功能,一些组织已经避开了供应商提供的Spark支持,并自行部署了基本的Apache Spark软件。

例如,Synchronoss技术公司在2014年从Hadoop供应商MapR获得Spark。但移动管理公司Bridgewater的大数据分析平台高级主管Suren Nathan表示,公司有时直接升级到Apache Spark的新版本,以获得所需的功能。“现在,我的团队可以非常熟练地使用Spark,”他说。

Webtrends公司也一直使用基本的Spark软件。“我们正试图尽可能保持现有的发布,”来自美国的在线活动跟踪公司首席技术官Peter Crossley说,“市场上没有其他技术像这种技术一样快。”

Crossley表示,他更喜欢通过Hadoop供应商Hortonworks获得支持的Spark版本。为了尽可能做到这一点,他的团队与Hortonworks合作开发了一个“双轨发布计划”,供应商去年3月加快了Sparkand与Hadoop相关的其他大数据技术的交付。

本文转自d1net(转载)

相关文章
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
159 0
|
12天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
3月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
|
2月前
|
分布式计算 大数据 Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
121 0
|
3月前
|
分布式计算 监控 大数据
Spark RDD分区和数据分布:优化大数据处理
Spark RDD分区和数据分布:优化大数据处理
|
4月前
|
分布式计算 大数据 Linux
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
105 0
|
4月前
|
SQL 分布式计算 大数据
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
102 0
|
4月前
|
分布式计算 资源调度 大数据
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day30】——Spark数据调优(文末附完整文档)
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day30】——Spark数据调优(文末附完整文档)
65 0
|
4月前
|
SQL 机器学习/深度学习 分布式计算
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day17】——Spark4
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day17】——Spark4
44 0
|
4月前
|
存储 消息中间件 分布式计算
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day28】——Spark15+数据倾斜1
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day28】——Spark15+数据倾斜1
36 0