备案控制台

开发者社区大数据文章正文

Hadoop streaming 排序、分桶参数设置

2017-12-16 2472

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 编写hadoop任务经常需要用到partition和排序。这里记录一下几个参数。1. 概念Partition：分桶过程，用户输出的key经过partition分发到不同的reduce里，因而partitioner就是分桶器，一般用平台默认的hash分桶也可以自己指定。

编写hadoop任务经常需要用到partition和排序。这里记录一下几个参数。

1. 概念

Partition：分桶过程，用户输出的key经过partition分发到不同的reduce里，因而partitioner就是分桶器，一般用平台默认的hash分桶也可以自己指定。
Key：是需要排序的字段，相同分桶&&相同key的行排序到一起。

2. 参数设置

在streaming模式默认中, hadoop会把map输出的一行中遇到的第一个设定的字段分隔符前面的部分作为key，后面的作为value，如果输出的一行中没有指定的字段分隔符，则整行作为key，value被设置为空字符串。streaming中默认字段分割符是tab。

2.1 reduce收到数据内的排序(实际上在map结果数据落时候已经排序)

我们知道，一个reduce收到的数据是经过排序的。

如下设置，reduce收到的数据如何排序: 字段分割符是'.'，按照前2个字段排序。

stream.num.map.output.key.fields=2

stream.map.output.field.separator=.

2.2 map数据输出数据partition

我们知道可以指定partition参数使得符合条件的数据被后续的同一个reduce处理。

如下设置，指定字段分隔符是'.', 按照第一个字段进行pattition。

map.output.key.field.separator=.

num.key.fields.for.partition=1

参考: http://www.dreamingfish123.info/?p=1102

文章标签：

流计算

分布式计算

Hadoop

关键词：

hadoop设置

hadoop参数

hadoop排序

hadoop参数设置

hadoop streaming

旭东的博客

目录

相关文章

算精通

|

2月前

|

存储分布式计算资源调度

hadoop配置文件参数

hadoop配置文件参数【2月更文挑战第13天】

算精通

43 6 7

听风de歌

|

12天前

|

分布式计算 Hadoop 测试技术

Hadoop节点网络性能的带宽测试设置测试环境

【4月更文挑战第23天】

听风de歌

21 1 1

Hadoop节点网络性能的带宽测试设置测试环境

kkoneone11

|

6月前

|

分布式计算 Hadoop Java

设置hadoop+安装java环境

设置hadoop+安装java环境

kkoneone11

42 0 0

osc_06552749

|

10月前

|

存储分布式计算资源调度

Hadoop 参数调优

Hadoop 参数调优

osc_06552749

56 0 0

北村南

|

11月前

|

分布式计算 Hadoop Java

【Big Data】Hadoop--MapReduce经典题型实战(单词统计+成绩排序+文档倒插序列)

🍊本文使用了3个经典案例进行MapReduce实战🍊参考官方源码，代码风格较优雅🍊解析详细。

北村南

158 0 0

WHYBIGDATA

|

消息中间件存储缓存

关于Hadoop集群物理及虚拟内存的检测的设置说明

关于Hadoop集群物理及虚拟内存的检测的设置说明

WHYBIGDATA

231 0 0

关于Hadoop集群物理及虚拟内存的检测的设置说明

游客dk64xrhekz3ko

|

存储分布式计算 Hadoop

Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

游客dk64xrhekz3ko

163 0 0

Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

游客dk64xrhekz3ko

|

存储分布式计算 Hadoop

Hadoop中的FileInputFormat切片机制、FileInputFormat切片大小的参数配置、TextInputFormat、CombineTextInputFormat切片机制

Hadoop中的FileInputFormat切片机制、FileInputFormat切片大小的参数配置、TextInputFormat、CombineTextInputFormat切片机制

游客dk64xrhekz3ko

206 0 0

Hadoop中的FileInputFormat切片机制、FileInputFormat切片大小的参数配置、TextInputFormat、CombineTextInputFormat切片机制

游客dk64xrhekz3ko

|

存储机器学习/深度学习分布式计算

Hadoop中的DataNode、工作机制、数据完整性、掉线时限参数设置

Hadoop中的DataNode、工作机制、数据完整性、掉线时限参数设置

游客dk64xrhekz3ko

292 0 0

Hadoop中的DataNode、工作机制、数据完整性、掉线时限参数设置

游客dk64xrhekz3ko

|

机器学习/深度学习存储 XML

Hadoop中NameNode和SecondaryNameNode、NN和2NN工作机制、Fsimage和Edits解析、oiv查看Fsimage、oev查看Edits、CheckPoint时间设置

Hadoop中NameNode和SecondaryNameNode、NN和2NN工作机制、Fsimage和Edits解析、oiv查看Fsimage、oev查看Edits、CheckPoint时间设置

游客dk64xrhekz3ko

189 0 0

Hadoop中NameNode和SecondaryNameNode、NN和2NN工作机制、Fsimage和Edits解析、oiv查看Fsimage、oev查看Edits、CheckPoint时间设置

热门文章

最新文章

利用Hive与Hadoop构建大数据仓库：从零到一

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

大数据处理架构Hadoop

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【Hadoop】HDFS 读写流程

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

Apache Hadoop YARN基本架构

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)

百度搜索：蓝易云【Ubuntu搭建全分布式Hadoop】

hadoop升级流程

使用Sqoop将数据从Hadoop导出到关系型数据库

使用Sqoop将数据导入Hadoop的详细教程

Hadoop和Hive中的数据倾斜问题及其解决方案

Hadoop生态各个组件的关系

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）