多云未来,Hadoop何去何从?

简介:

Hadoop是目前大数据分析领域中应用最广泛的一种分布式架构,而经过相当长时间的发展,Hadoop在功能上也越来越成熟。尤其在过去三年里,它得到前所未有的发展,并被很多公司大规模采用。然而时代在变化,Hadoop在多云的未来该何去何从?

根据市场调研公司Forrester估计,2017年用户将在Hadoop软件和相关服务上花费8亿美元。这并不奇怪,因为在过去这段时间里,Hadoop供应商们充分利用Cloudera、 Hortonworks、和MapR等产品使Hadoop家喻户晓。但是,时代在变化,Hadoop与其它技术一样也受到云计算的影响。

用户们希望借助公有云来处理更多的大数据,所以尽管Hadoop不是专为云而生,Hadoop供应商们还是在努力将Hadoop与云联系起来。就像一位Hadoop供应商的内部人士所言:“如果我们真正理解云,就不会用原来的方式去设计Hadoop。“事实上,所有Hadoop供应商都在通过自家策略使Hadoop与云相结合,尤其是在对象存储和调度策略上。

但是,云供应商似乎并未向Hadoop供应商们敞开怀抱。云供应商正在通过自己的数据解决方案代替Hadoop,这为Hadoop在多云的未来发展蒙上了阴影。

在大数据相关业务上,云供应商们采用了隐藏或替换Hadoop的方式满足用户需求。比如AWS 的Athena,你可以对大数据执行SQL查询,但不用关心底层的服务器。这使“无服务器”产品成为趋势,比如Google云端功能就是一个例子;DataBricks则直接针对S3(亚马逊云服务)使用Spark。看到这个模式了吗?

随着越来越多的公司厌倦了Hadoop的内部复杂性,这些公司正寻求把Hadoop堆栈转移到公有云,这意味着Hadoop供应商的市场和营收将被云厂商蚕食。

公有云中的Serverless架构(无服务架构),以及其它能够替代Hadoop的解决方案,都将削弱Hadoop收入;所以除非Hadoop社区能够给行业一个令人信服的理由,才能说服用户继续使用Hadoop,从而保住Hadoop的市场。

就Hadoop目前的生态而言,各供应商之间系出同源但又各自为战。大数据组件、安全性、元数据及管理等产品及服务都能单独作为不同供应商之间的独特竞争力,这让Hadoop的服务无法形成闭环。而服务闭环却是用户选择将Hadoop作为他们的大数据战略核心最关键的因素。因此,在面对亚马逊、谷歌、IBM和其他公司提供了Hadoop替代方案的多云未来,Hadoop供应商们无法团结起来一起保护Hadoop的地位。

所以我们有理由相信,在未来两三年内,Hadoop将只会提供一个品牌而非一条产业链或具体的产品。可以看到的是,当下的Hortonworks、Cloudera、MapR和Pivotal都纷纷脱离了Hadoop供应商标签,他们也正是看到了这种趋势。

如果再考虑到深度学习和人工智能对Hadoop的影响,那就更加混乱了。就像Hadoop不是为云而生一样,它同样不是为深层学习所需的矩阵数学而设计的。云团队正在忙于创建合适人工智能发展的友好环境,这意味着Hadoop供应商要做更多努力以保持他们软件的兼容性。未来Hadoop供应商们会让Hadoop成为AI的平台吗?大概不会。

所以Hadoop在未来还会保持两到三年的强劲增长,但最终它可能只会留在数据库与大型机身边。数字时代的变化速度太快,没有任何一种技术可以长盛不衰!


本文作者:楠沨

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
SQL 分布式计算 Hadoop
大数据行业部署实战1:Hadoop伪分布式部署
大数据行业部署实战1:Hadoop伪分布式部署
162 0
|
存储 分布式计算 资源调度
阿里巴巴飞天大数据架构体系与Hadoop生态系统
先说Hadoop 什么是Hadoop? Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。
9633 1
|
4月前
|
存储 分布式计算 负载均衡
干翻Hadoop系列文章【01】:Hadoop前瞻之分布式知识
干翻Hadoop系列文章【01】:Hadoop前瞻之分布式知识
|
7月前
|
SQL 存储 分布式计算
大数据Hadoop小文件问题与企业级解决方案
大数据Hadoop小文件问题与企业级解决方案
44 0
|
9月前
|
存储 分布式计算 Hadoop
云计算与大数据实验二 Hadoop的安装和集群的搭建
云计算与大数据实验二 Hadoop的安装和集群的搭建
292 0
|
分布式计算 运维 资源调度
大数据组件-Hadoop全分布式部署
大数据组件-Hadoop全分布式部署
大数据组件-Hadoop全分布式部署
|
SQL 分布式计算 运维
hadoop日常运维白皮书
hadoop日常运维与升级总结 ▲进程管理由于配置文件的更改,需要重启生效,或者是进程自己因某种致命原因终止,或者发现进程工作出现异常等情况下,需要进行手动进程的关闭或启动,或者是增删节点过程中的需要,进程的关闭与启动,使用hadoop-daemon.
2052 0
|
存储 分布式计算 资源调度
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
173 0
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
|
分布式计算 自然语言处理 Hadoop
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
120 0
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
|
存储 分布式计算 监控