备案控制台

开发者社区

开发者社区大数据文章正文

关于Tool接口--------hadoop接口：extends Configured implements Tool 和 ToolRunner.run

2017-11-19 1755

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

　　我们在写Hadoop--map/reduce程序时，遇到使用按文件url来分析文件----------多表连接的DistributedCache方式，看不懂使用extends Configured implements Tool的方式，就查了一下http://hadoop.apache.org 上面对该Tool接口及其使用做了说明：

@InterfaceAudience.Public
@InterfaceStability.Stable
public interface Tool //Tool接口继承了Configurable
extends Configurable
//Tool接口可以支持处理通用的命令行选项，它是所有Map-Reduce程序的都可用的一个标准接口，下面是一个典型用例：
public class MyApp extends Configured implements Tool {
public int run(String[] args) throws Exception {
//ToolRunner要处理的Configuration，Tool通过ToolRunner调用ToolRunner.run时，传入参数Configuration
Configuration conf = getConf();
JobConf job = new JobConf(conf, MyApp.class);
Path in = new Path(args[1]);
Path out = new Path(args[2]);
// 设置job的各种详细参数
job.setJobName("my-app");
job.setInputPath(in);
job.setOutputPath(out);
job.setMapperClass(MyMapper.class);
job.setReducerClass(MyReducer.class);
//提交job
JobClient.runJob(job);
return 0;
}
public static void main(String[] args) throws Exception {
// 让ToolRunner执行
int res = ToolRunner.run(new Configuration(), new MyApp(), args);
System.exit(res);
}
}

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/6431833.html，如需转载请自行联系原作者

文章标签：

分布式计算

Hadoop

测试技术

关键词：

hadoop接口

技术小哥哥

目录

相关文章

游客dk64xrhekz3ko

|

存储分布式计算自然语言处理

Hadoop序列化、概述、自定义bean对象实现序列化接口（Writable）、序列化案例实操、编写流量统计的Bean对象、编写Mapper类、编写Reducer类、编写Driver驱动类

Hadoop序列化、概述、自定义bean对象实现序列化接口（Writable）、序列化案例实操、编写流量统计的Bean对象、编写Mapper类、编写Reducer类、编写Driver驱动类

游客dk64xrhekz3ko

214 0 0

Hadoop序列化、概述、自定义bean对象实现序列化接口（Writable）、序列化案例实操、编写流量统计的Bean对象、编写Mapper类、编写Reducer类、编写Driver驱动类

技术小哥哥

|

分布式计算 Java API

Hadoop概念学习系列之Hadoop实现接口（十五）

技术小哥哥

1223 0 0

技术小哥哥

|

SQL Java Apache

Hadoop Hive概念学习系列之hive里的扩展接口（CLI、Beeline、JDBC）（十六）

技术小哥哥

1664 0 1

技术小哥哥

|

分布式计算 Hadoop API

Hadoop HDFS概念学习系列之fs中相关API接口的说明（二十一）

技术小哥哥

1279 0 0

技术小哥哥

|

分布式计算 Java API

Hadoop MapReduce概念学习系列之在MapReduce编程时，三大接口抉择（十六）

技术小哥哥

1038 0 0

wuyudong

|

分布式计算 Hadoop API

hadoop中OutputFormat 接口的设计与实现

wuyudong

2135 0 0

wuyudong

|

分布式计算算法 Hadoop

hadoop中InputFormat 接口的设计与实现

wuyudong

3497 0 0

wuyudong

|

存储分布式计算 Hadoop

hadoop中的序列化与Writable接口

wuyudong

2629 0 0

听风de歌

|

7天前

|

存储分布式计算 Hadoop

大数据处理架构Hadoop

【4月更文挑战第10天】Hadoop是开源的分布式计算框架，核心包括MapReduce和HDFS，用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势，但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统，DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。

听风de歌

24 2 2

桃李春风一杯酒

|

7天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

21 1 1

热门文章

最新文章

利用Hive与Hadoop构建大数据仓库：从零到一

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

大数据处理架构Hadoop

Hadoop集群基本测试

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

【Hadoop】HDFS 读写流程

大数据Hadoop生态圈体系视频课程

hadoop 启动和验证

Apache Hadoop YARN基本架构

hadoop配置文件参数

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)

百度搜索：蓝易云【Ubuntu搭建全分布式Hadoop】

hadoop升级流程

Hadoop：驭服数据洪流的利器

使用Sqoop将数据从Hadoop导出到关系型数据库

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

阿里云oss简介和使用流程