Hadoop入门扫盲:hadoop发行版介绍与选择

简介:

一、hadoop发行版介绍


目前Hadoop发行版非常多,有Intel发行版,华为发行版、Cloudera发行版(CDH)、Hortonworks版本等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,是由于Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。


目前而言,不收费的Hadoop版本主要有三个,都是国外厂商,分别是:


Apache(最原始的版本,所有发行版均基于这个版本进行改进)

Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)

Hortonworks版本(Hortonworks Data Platform,简称“HDP”)


对于国内用户而言,绝大多数选择CDH版本,Cloudera的CDH和Apache的Hadoop的区别如下:


(1) CDH对Hadoop版本的划分非常清晰,截止目前为止,CDH共有5个版本,其中,前三个已经不再更新,最近的两个,分别是CDH4和CDH5,CDH4基于Hadoop2.0,CDH5基于hadoop2.2/2.3/2.5/2.6.相比而言,Apache版本则混乱得多;同时,CDH发行版比Apache hadoop在兼容性,安全性,稳定性上有很大增强。  


(2)CDH3是CDH第三个版本,基于Apache hadoop0.20.2改进而来,并融入了最新的patch,CDH4版本是基于Apache hadoop2.0.0改进的,CDH总是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。


(3)CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证.


(4)CDH文档完善清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。 


(5)CDH支持yum/apt包,RPM包,tar包,Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。


二、CDH发行版本介绍


CDH首先是100%开源,基于Apache协议。基于Apache Hadoop和相关projiect开发。可以做批量处理,交互式sql查询和及时查询,基于角色的权限控制。在企业中使用最广的Hadoop分发版本。

Cloudera完善了CDH的版本,并提供了对hadoop的发布、配置和管理,监控,诊断工具,在官网提供了多种集成发行版。如下图所示:

wKiom1ga_m2TTr_bAADvYbyceOc288.png-wh_50

 

1、单纯CDH版本下载,目前最新版本为CDH5.8.2,可自由下载并免费无限制使用。

2、Cloudera Express,可免费下载使用,包含了CDH,以及Cloudera Manager(简称CM),CM提供了对集群的管理功能,比如自动化部署,中心化管理,监控,诊断功能等。CM属于非开源产品,Cloudera提供有限功能使用,之前对管理的数据节点限制为50个,目前已经取消了此限制,可无限增加数据节点。

3、Cloudera Enterprise是官方的收费产品,可免费试用60天全功能版本,过期后需要注册码才能继续使用,否则将变为Cloudera Express版本,包含CDH,以及Cloudera Manager。Cloudera Enterprise在发布、配置和管理,监控,诊断,集成四个部分的功能是相同的。只有在高级管理功能中有区别,Cloudera Enterprise拥有这些功能,而Cloudera Express则没有。


三、CDH发行版下载地址


可到官方网站下载页面:http://www.cloudera.com/downloads.html, 也可以知道到下面地址下载不同版本:


http://archive.cloudera.com/cdh/

http://archive.cloudera.com/cdh4/

http://archive.cloudera.com/cdh5/


四、CDH与操作系统的依赖


CDH发行版本与操作系统的关系如下:

 

经验推荐:

hadoop-2.3.0-cdh5.1.5以及之前的版本,推荐linux操作系统版本为Centos6.x以上

hadoop-2.5.0-cdh5.2.0以及之后的版本,推荐linux操作系统版本为Centos7.x(Centos7.1/7.2,7.0不支持)以上。
















本文转自南非蚂蚁51CTO博客,原文链接: http://blog.51cto.com/ixdba/1869043,如需转载请自行联系原作者

相关文章
|
存储 SQL 缓存
Hadoop入门(一篇就够了)
Hadoop入门(一篇就够了)
2416 0
Hadoop入门(一篇就够了)
|
5月前
|
存储 分布式计算 资源调度
Hadoop入门(一篇就够了)(上)
Hadoop入门(一篇就够了)(上)
81 0
|
5月前
|
缓存 分布式计算 安全
Hadoop入门(一篇就够了)(下)
Hadoop入门(一篇就够了)(下)
35 0
|
分布式计算 安全 Hadoop
hadoop 入门 java.net.ConnectException: Connection refused
hadoop 入门 java.net.ConnectException: Connection refused
188 0
hadoop3自学入门笔记(3)-java 操作hdfs
hadoop3自学入门笔记(3)-java 操作hdfs
108 0
|
分布式计算 Hadoop Java
hadoop3自学入门笔记(2)—— HDFS分布式搭建
hadoop3自学入门笔记(2)—— HDFS分布式搭建
126 0
hadoop3自学入门笔记(2)—— HDFS分布式搭建
|
分布式计算 Hadoop Linux
hadoop3自学入门笔记(1)——虚拟机安装和网络配置
hadoop3自学入门笔记(1)——虚拟机安装和网络配置
260 0
hadoop3自学入门笔记(1)——虚拟机安装和网络配置
|
存储 分布式计算 资源调度
第1章 Hadoop 入门
第1章 Hadoop 入门
302 0
|
分布式计算 Hadoop
Hadoop 入门到实践
Hadoop 入门到实践
78 0
Hadoop 入门到实践
|
分布式计算 Ubuntu IDE
大数据入门系列 5:全网最全,Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作
大数据入门系列 5:全网最全,Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作
1174 0
大数据入门系列 5:全网最全,Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作

热门文章

最新文章

相关实验场景

更多