flume java介绍

2016-09-12 8801

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 近期在做shark flume开发框架的测试，该框架是一个简单高效的面向数据的pipeline框架，采用flume java的思想，实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper，这里做一些总结，主要

背景

近期在做shark flume开发框架的测试，该框架是一个简单高效的面向数据的pipeline框架，采用flume java的思想，实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper，这里做一些总结，主要针对flume java的一些基本概念和思想，由此可以了解shark相较于我们已有的MaxCompute开发框架有哪些不同。

基本概念

MapReduce介绍

flume java底层也是通过Map Reduce的方式执行任务，所以这里先简单介绍一下MapReduce框架。
MapReduce是一个分布式计算框架，主要针对批量大数据处理的场景。大家很熟悉的hadoop和MaxCompute计算都是MapReduce思想的具体实现。MapReduce框架的计算过程主要分成map-combine-shuffle-reduce几个阶段，具体每个阶段的工作可以参见下图。（引用自http://blog.jobbole.com/84089/）
hadoop1

husky介绍

Husky是一个基于MaxCompute Map-reduce计算框架的工具包，内部封装了一些常用的功能模块。比如最常用的Flow模块可以完成各种不同类型任务的依赖搭建，甚至是外部任务或者是天网任务。Flow可以尽量的并行任务，提高MaxCompute集群的资源利用率。Husky除了支持Map-reduce任务外还支持sql、exec、tunnel等多种类型的任务，目前在阿里妈妈使用非常广泛。

flume java介绍

flume java的本质是一个面向数据的计算框架，这里包含了两个主要概念，数据和操作。

基本数据类型

flume java定义了两种数据集合：PCollection表示一个不可变的数据集合，PTable是PCollection的一个子类，表示一个不可变的结构的数据集合。数据集合中的数据类型是用户可以随意指定，比如MaxCompute的record，基本数据类型，pb类型等，所以这两种数据集合基本可以涵盖我们日常见到的全部类型的数据。

基本操作

flume java定义了几种针对以上数据集合的基本的数据操作。
ParallelDo(DoFn)--该操作可以类比MapReduce框架中的map或reduce阶段，通过执行DoFn，将输入数据集合PCollection转换成集合PCollection。
用户在使用该算子的时候需要自己实现DoFn方法，实际上用户在使用flume java框架时就是在编写各种处理数据集合的Fn方法，并将这些数据处理转换的过程串联成一个完整的pipeline。
GroupByKey--该操作可以类比MapReduce框架中的shuffle阶段，作用是将相同的key对应的value聚合起来，即将PCollection处理成PCollection>的过程。
combineValue--该操作可以类比MapReduce框架中的combine阶段，将PCollection>处理成PCollection。
flattens--针对所有的输入数据集合做一个合并操作，即将多个PCollection合并成PCollection。

衍生操作

基于以上几种基本操作，flume java又封装了一些常用的衍生操作。
count--将PCollection经过parallelDo变换，groupByKey聚合和combineValue操作最终变成PTable。大数据计算里最常见的wordCount在flume java中可以用这样一个算子实现。
join--将PTable和PTable经过parallelDo变换，flatten聚合和又一次的parallelDo变换转变成PTable, PCollection>>。
top--计算一个PCollection中top n的元素，该算子是parallelDo，groupByKey和combineValue几种算子的封装。

以上就是flume java中定义的数据集合和操作，任何基于flume java思想实现的library都要实现这些基础的操作算子，然后再结合实际应用总结出更多的算子，并用基础算子加以实现封装，shark框架就结合实际应用封装了更多的衍生算子，让框架使用者更方便的使用。

任务执行

flume java的执行粒度是pipeline，用户通过前面介绍的一系列算子生成了一个pipeline后，flume java并不是马上开始执行这个pipeline。因为flume java的运行采用lazy模式，用户需要显示的调用一个执行命令，才会真正开始执行任务，前期会完成创建执行计划和执行计划的优化工作，所以最终执行的是已经优化完成的pipeline。

任务优化

flume java有多种复杂的优化机制，一种是针对执行计划进行优化，另外在调度上会根据数据量大小选择本地和远程执行的模式，这种支持local模式的机制在测试场景中非常实用，测试人员的小数据量的任务无需再提交到集群上跟大任务争资源，直接本地就可以执行，这将大大缩短测试的时间。
pipeline优化的核心思想就是将可以合并在同一个map reduce job中的任务进行合并，减少总体job数量同时减少中间数据的落地输出。
这里给出paper中一个优化的例子。
原始任务pipeline：
flume5
该图中每一个节点对应一个并行的数据操作，除去writes节点共有16个操作节点。
优化后的pipeline：
flume6
最终经过优化实际只需要执行2个map reduce任务即可。
具体的优化策略这里不再介绍，大家可以参考flume java的paper了解更详细的过程。

shark的特性

前面介绍过shark实际是实现了一套flume java on MaxCompute的library，包含了丰富的join算子，比如双流join、multi join、shard join、map join；多种聚合算子，sum、avg、top等；支持二次排序和一些集合运算。同时也采用了husky中的一些功能，比如采用xml配置描述pipeline，但配置过程已经大大简化。支持断点重跑，pipeline DAG可视化等功能。

总结

paper中给出了一系列的结论用于阐明该框架的优势，比如由于该框架的易用性，越来越多的开发人员开始使用这个框架编写任务；采用优化策略使得实际的mr任务数缩减到1/5，从而执行效率也得到提升；开发人员迁移到该框架后代码量也得到缩减。
在测试shark的过程中自己也编写了一些基于该框架的任务，自己的感觉是配置文件得到了简化，无需再去了解MaxCompute或者husky的一些接口，只需要专注对数据的处理，实际执行任务时也没有了各种中间数据的输出，对于一些比较简单的任务测试起来是非常方便的。当然这种优化有时候也是一把双刃剑，一旦最终结果出现问题，往往需要追溯每个中间步骤的结果，而在这种框架下中间步骤可能已经被优化合并了，所以也曾跟开发讨论过如何支持debug模式的方案。但整体来说该框架还是能大大提高测试开发效率的。
欢迎加入MaxCompute钉钉群讨论

MaxCompute连接：https://www.aliyun.com/product/odps?spm=5176.100239.blogcont62435.17.zXXbop&from=yq&id=60498

flume java介绍

背景

基本概念

MapReduce介绍

husky介绍

flume java介绍

基本数据类型

基本操作

衍生操作

任务执行

任务优化

shark的特性

总结

大数据计算 MaxCompute

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

flume java介绍

背景

基本概念

MapReduce介绍

husky介绍

flume java介绍

基本数据类型

基本操作

衍生操作

任务执行

任务优化

shark的特性

总结

大数据计算 MaxCompute

热门文章

最新文章

相关课程

相关电子书

相关实验场景