CDH ecosystem components

简介: 1,Mahout ASF(Apache Software Foundation)开源项目,提供可扩展的`机器学习`--(ML,Machine Learning多领域交叉学科,涉及概率,统计,逼近,凸分析,算法复杂度等多门学科,专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织...

1,Mahout ASF(Apache Software Foundation)开源项目,提供可扩展的`机器学习`--(ML,Machine Learning多领域交叉学科,涉及概率,统计,逼近,凸分析,算法复杂度等多门学科,专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能的核心,是计算机具有智能的根本途径,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域)领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序;

 

2,Snappy 高速压缩解压缩开发包 ,类似LZO,压缩解压缩速度高,压缩率相对其他压缩库-zlib、LZO、LZF、FastLZ和QuickLZ低下,本身它的定位就是PB级大数据量压缩;

 

3,Apache Whirr 提供了一组 Java 类库用来运行云服务基于 jclouds 开发

jclouds 是一个开源的Java类库,用来帮你开始云计算应用开发,并可重用已有的Java和Clojure技能。该API提供云计算环境的可移植抽象层以及云规范特性,支持包括 Amazon, VMWare, Azure(Windows Azure作为微软云计算平台,提供开放而灵活的云平台), and Rackspace 等云计算平台
9月13日,Apache 软件基金会(ASF)官方宣布Apache Whirr 升级为Apache 顶级项目(TLP)

 

4,oozie工作流引擎服务器,在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新 的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务,

什么是Oozie?

Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:

  • 工作流定义
  • 当前运行的工作流实例,包括实例的状态和变量

http://www.infoq.com/cn/articles/introductionOozie

 

5,ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户

 

6,HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”

 

7,hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行

 

8,Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果

 

9,提供一个基于WEBJob Tracker,集群监控和文件浏览

 

10,Apache HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。

包括:

  • 提供一个共享的模式和数据类型的机制。
  • 抽象出表,使用户不必关心他们的数据怎么存储。
  • 提供可操作的跨数据处理工具,如Pig,MapReduce,Streaming,和Hive。

11,Flume日志收集,是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

 

12,sqoop导入关系型数据库中数据;

 

附件相关性知识库

gossip协议集群节点间状态信息,http://blog.csdn.net/zhangzhaokun/article/details/5859760

http://www.open-open.com/lib/view/open1339233432662.html

http://www.iteye.com/topic/1122901

http://labs.chinamobile.com/mblog/52251_166394

目录
相关文章
|
分布式计算 Hadoop
《Enterprise ready Hadoop clusters on the cloud》电子版地址
Enterprise ready Hadoop clusters on the cloud
53 0
《Enterprise ready Hadoop clusters on the cloud》电子版地址
|
Kubernetes 容器
|
Kubernetes Cloud Native 安全
Kubernetes CKS 2021【7】---Cluster Setup - Verify Platform
Kubernetes CKS 2021【7】---Cluster Setup - Verify Platform
Kubernetes CKS 2021【7】---Cluster Setup - Verify Platform
|
分布式计算 Spark
《Acceleration of Generic SPARK Workloads via a “Sea of Cores” Scalable Compute Fabric》电子版地址
Acceleration of Generic SPARK Workloads via a “Sea of Cores” Scalable Compute Fabric
58 0
《Acceleration of Generic SPARK Workloads via a “Sea of Cores” Scalable Compute Fabric》电子版地址
|
Apache 流计算
《Lessons Learned on Apache Flink Application Availability》电子版地址
04-简锋-Lessons Learned on Apache Flink Application Availability-Final
68 0
《Lessons Learned on Apache Flink Application Availability》电子版地址
|
Linux 开发工具 C#
Tencent Cloud Code Analysis介绍及安装部署
Tencent Cloud Code Analysis介绍及安装部署
872 0
Tencent Cloud Code Analysis介绍及安装部署
|
资源调度
SAP Spartacus master branch for 4.0 无法使用 yarn build
SAP Spartacus master branch for 4.0 无法使用 yarn build
80 0
SAP Spartacus master branch for 4.0 无法使用 yarn build
|
SQL Java 分布式数据库
Drill storage plugin实现原理分析
# Drill Storage Plugin介绍 Drill是一个交互式SQL查询引擎,官方默认支持的数据源有hive、hbase、kafka、kudu、mongo、opentsdb、jdbc等,其中jdbc storage plugin可以覆盖所有支持jdbc协议的数据源,如:mysql、oracle等关系型数据库。所有数据源的接入都是通过drill的storage plugin实
2328 0
|
机器学习/深度学习 分布式计算 Hadoop
One-click Deployment of a Hadoop Distributed Cluster on Alibaba Cloud
Resource Orchestration Service (ROS) can be used to deploy a Hadoop cluster on Alibaba Cloud with a single click.
2123 0