一个 Hadoop 老兵的自白

简介:

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的Hadoop版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。Jim Scott 是 MapR 企业战略&架构部门的负责人。2009年,他接触了自己的第一个 Hadoop 版本 Cloudera。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案。

Append-only文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如,HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX 和 NFS。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。

备份&恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护&升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目。

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步阅读。

对 MapR 感兴趣的读者,可以下载 MapR M3 社区版本,免费体验 MapR 的性能。

文章转载自 开源中国社区[https://www.oschina.net]

相关文章
|
3月前
|
存储 分布式计算 Hadoop
Hadoop:驭服数据洪流的利器
在当今信息大爆炸的时代,海量数据成为企业决策的重要依据。本文将介绍大规模数据处理框架Hadoop的概念与实践,探讨其在解决大数据应用中的重要性和优势。从分布式计算、高可靠性、扩展性等方面深入剖析Hadoop的工作原理,并结合实例说明如何利用Hadoop来处理海量数据,为读者提供了解和运用Hadoop的基础知识。
|
4月前
|
分布式计算 Hadoop 大数据
大数据面试题百日更新_Hadoop专题(Day04)
大数据面试题百日更新_Hadoop专题(Day04)
16 0
|
4月前
|
分布式计算 Hadoop 大数据
大数据面试题百日更新_Hadoop专题(Day09)
大数据面试题百日更新_Hadoop专题(Day09)
23 0
|
4月前
|
分布式计算 Hadoop 大数据
大数据面试题百日更新_Hadoop专题(Day06)
大数据面试题百日更新_Hadoop专题(Day06)
25 0
|
4月前
|
分布式计算 搜索推荐 Hadoop
阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中台实战pdf
Spark大数据分析实战 1、Spark简介 初识Spark Sp ark生态系统BDAS Sp ark架构与运行逻辑 弹性分布式数据集
|
资源调度 分布式计算 监控
Hadoop如何保证自己的江湖地位?Yarn功不可没
Hadoop如何保证自己的江湖地位?Yarn功不可没
118 0
Hadoop如何保证自己的江湖地位?Yarn功不可没
|
存储 分布式计算 监控
【Hadoop技术栈篇】认识Hadoop,起源和发展
Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。
234 0
【Hadoop技术栈篇】认识Hadoop,起源和发展
|
分布式计算 Hadoop
漫画:在健身房给肌友继续讲Hadoop(二)
漫画:在健身房给肌友继续讲Hadoop(二)
漫画:在健身房给肌友继续讲Hadoop(二)
|
分布式计算 Hadoop 大数据
通过养猪给女朋友讲解Hadoop(一)
通过养猪给女朋友讲解Hadoop(一)
通过养猪给女朋友讲解Hadoop(一)
|
存储 SQL 分布式计算
Hadoop系列之大数据启蒙
Hadoop系列之大数据启蒙
194 0
Hadoop系列之大数据启蒙