Hadoop之后:大数据的未来

简介:

在实时数据世界里,为什么我们还这么执着于Hadoop?

根据451 Research调查数据显示,围绕批处理架构的Hadoop仍然是大数据[注]的代表技术,尽管其声誉仍然超过实际部署情况。

Hadoop之后:大数据的未来

还没有真正部署Hadoop的企业可能想要再等一等。而随着Apache Spark等其他技术(Storm、Kafka等)的出现,我们似乎与Hadoop的批处理渐行渐远,逐渐转向实时数据的未来。

批处理不是重点

Cloudera的Doug Cutting是一个非常聪明的人,也是开源开发人员,Hadoop、Lucene等大数据工具的开发都有他的功劳。

虽然Cutting承认实时流媒体技术的重要性,但他并没有否认面向批处理的Hadoop的价值,他表示:

并不是因为我们觉得批处理是最好的,所以Hadoop围绕批处理而构建。批处理(特别是MapReduce)很自然是第一步,因为它相对容易部署, 并提供很重要的价值。在Hadoop之前,没有办法使用开源软件在商品硬件存储和处理千兆字节。Hadoop的MapReduce是很大的进步。

我们很难说清楚大数据的商品化对这个世界的重要性。这并不是说在Hadoop之前我们没有存储和分析大量数据,而是Hadoop让我们非常廉价地实现这个过程。

总之,Hadoop民主化了大数据。

转向流数据?

然而,Hadoop并没有让大数据分析变得容易。正如DataStax首席布道者Patrick McFadin表示,从企业数据挖掘价值并没有那么简单:

我们都听说过存储和分析PB级数据的投资回报率的问题。谷歌、雅虎和Facebook都在从中创造惊人的价值,而大部分企业都在试图研究如何分析所有数据,第一:收集所有数据;第二:……;第三:利润!

在数据收集和利润之间有很多麻烦的步骤。随着企业试图加快对实时数据的分析能力,新技术为他们提供了可能。

McFadin发现了这个新大数据堆栈的关键要素。首先是一个排队系统,Kafka、RabbitMQ和Kinesis等。然后是流处理层,这可能 包括Storm、Spark Streaming或者Samza。对于高速存储,企业经常转向Cassandra、HBase、MongoDB或者MySQL等关系型数据库。

最有趣的是批处理仍然有用武之地。McFadin表示,批处理现在可用于处理,即汇总和更深入的分析。批处理和实时的融合被称为“Lambda架构”,这涉及让三个元素和谐地共处:批处理、速度和服务

换句话说,批处理仍然有用。

淘汰批处理

但并不是每个人都同意。Zoomdata公司首席执行官和联合创始人Justin Langseth认为Lambda是“不必要的”,并称,“现在有端到端工具可以从采购、运输、存储到分析和可视化来处理数据,而不需要批处理”。

在他看来,批处理是大数据过去的遗留物:

实时数据显然最好应该作为流来处理,而且还可以加载历史数据,正如你的DVR可以加载电影《飘》或者上周的电视节目《美国偶像》到你的电视。这种区别很重要,Zoomdata认为将数据作为流来分析可以增加可扩展性和灵活性,而无论数据是实时还是历史数据。

然而,超越可扩展性和灵活性好处的可能是将批处理从大数据过程移除所带来的简单性。Langseth认为,“当你不需要担心批处理窗口以及从批处理故障中恢复时,这可以极大地简化大数据架构。”

流分析取代Hadoop?

Cutting称,还没有那么快。

Cutting认为未来Hadoop等技术并不会完全被淘汰,流分析会得以发展,Cloudera的Enterprise Data Hub也是一样。事实上,他不认为会广泛转向流分析,而是为大家带来了又一种选择。

更有趣的是,大数据的大爆炸会让行业催生出一些好方法来应对数据处理。

我认为我们不会再那么频繁地看到Spark这样的主要技术增加,随着时间的推移,我们将会标准化这些工具,为大多数人提供功能来满足其大数据应用需求。Hadoop带来了技术爆炸,但我们可能会进入比较正常的演化过程,在各行业广泛使用这些技术。

DataStax社区经理Scott Hirleman同意说:“批处理并不会消失,总是会需要对大量数据的大规模分析。”现在大家对流分析有极大的兴趣,但称现在还不清楚这种趋势对大数据计划的影响。

总之,流分析完全是关于“和”,而不是“或者”,这是对围绕批处理系统(例如Hadoop)的很好的补充,但这肯定不会完全取代Hadoop。


本文作者:佚名

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
80 2
|
1月前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
4天前
|
分布式计算 资源调度 Hadoop
java与大数据:Hadoop与MapReduce
java与大数据:Hadoop与MapReduce
23 0
|
14天前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
|
18天前
|
分布式计算 Hadoop 大数据
[大数据] mac 史上最简单 hadoop 安装过程
[大数据] mac 史上最简单 hadoop 安装过程
|
1月前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
83 1
|
1月前
|
分布式计算 资源调度 Hadoop
Apache Hadoop入门指南:搭建分布式大数据处理平台
【4月更文挑战第6天】本文介绍了Apache Hadoop在大数据处理中的关键作用,并引导初学者了解Hadoop的基本概念、核心组件(HDFS、YARN、MapReduce)及如何搭建分布式环境。通过配置Hadoop、格式化HDFS、启动服务和验证环境,学习者可掌握基本操作。此外,文章还提及了开发MapReduce程序、学习Hadoop生态系统和性能调优的重要性,旨在为读者提供Hadoop入门指导,助其踏入大数据处理的旅程。
194 0
|
13天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
13天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
13天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
24 0

热门文章

最新文章