《Hadoop实战手册》一1.7 从HDFS导出数据到MongoDB-阿里云开发者社区

《Hadoop实战手册》一1.7 从HDFS导出数据到MongoDB

2017-05-02 1971

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 MongoDB，独享型 2核8GB

简介：

本节书摘来异步社区《Hadoop实战手册》一书中的第1章，第1.7节，作者：【美】Jonathan R. Owens , Jon Lentz , Brian Femiano 译者：傅杰 , 赵磊 , 卢学裕责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.7 从HDFS导出数据到MongoDB

本节将使用MongoOutputFormat类加载HDFS中的数据并收集到MongoDB中。

准备工作
使用Mongo Hadoop适配器最简单的方法是从GitHub上克隆 Mongo-Hadoop工程，并且将该工程编译到一个特定的Hadoop版本。克隆该工程需要安装一个Git客户端。

本节假定你使用的Hadoop版本是CDH3。

Git客户端官方的下载地址是：http://git-scm.com/downloads。

在Windows操作系统上可以通过http://windows.github.com/访问GitHub。

在Mac操作系统上可以通过http://mac.github.com/访问GitHub。

可以通过https://github.com/mongodb/mongo-hadoop获取到Mongo Hadoop适配器。该工程需要编译在特定的Hadoop版本上。编译完的JAR文件需要复制到Hadoop集群每个节点的$HADOOP_HOME/lib目录下。

Mongo Java的驱动包也需要安装到Hadoop集群每个节点的$HADOOP_HOME/lib目录下。该驱动包可从https://github.com/mongodb/mongo-java-driver/downloads下载。

操作步骤
完成下面步骤实现将HDFS数据复制到MongoDB。

1．通过下面的命令实现克隆mongo-hadoop工程：

git clone https://github.com/mongodb/mongo-hadoop.git

        
          
        
        
        
          
          AI 代码解读

2．切换到稳定发布的1.0分支版本：

git checkout release-1.0

        
          
        
        
        
          
          AI 代码解读

3．必须保持mongo-hadoop与Hadoop的版本一致。使用文本编辑器打开mongo-hadoop克隆目录下的build.sbt文件，将下面这行：

hadoopRelease in ThisBuild := "default"

        
          
        
        
        
          
          AI 代码解读

修改为：

hadoopRelease in ThisBuild := "cdh3"

        
          
        
        
        
          
          AI 代码解读

4．编译mongo-hadoop：

./sbt package.

        
          
        
        
        
          
          AI 代码解读

这将会在core/target文件夹下生成一个名为mongo-hadoop-core_cdh3u3-1.0.0.jar的JAR文件。

5．从https://github.com/mongodb/mongo-java-driver/downloads下载MongoDB 2.8.0版本的Java驱动包。

6．复制mongo-hadoop和MongoDB Java驱动包到Hadoop集群每个节点的$HADOOP_HOME/lib：

cp mongo-hadoop-core_cdh3u3-1.0.0.jar mongo-2.8.0.jar $HADOOP_HOME/lib

        
          
        
        
        
          
          AI 代码解读

7．编写MapReduce读取HDFS上weblog_entries.txt文件并通过MongoOutputFormat类将数据写入MongoDB中：

import java.io.*; 
import org.apache.commons.logging.*; 
import org.apache.hadoop.conf.*; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.*; 
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
import org.apache.hadoop.mapreduce.*; 
import org.bson.*; 
import org.bson.types.ObjectId; 

import com.mongodb.hadoop.*; 
import com.mongodb.hadoop.util.*;

public class ExportToMongoDBFromHDFS { 

   private static final Log log = 
LogFactory.getLog(ExportToMongoDBFromHDFS.class); 
   public static class ReadWeblogs extends Mapper<LongWritable, Text,   
ObjectId, BSONObject>{ 

      public void map(Text key, Text value, Context context) throws   
IOException, InterruptedException{ 

         System.out.println("Key: " + key); 
         System.out.println("Value: " + value);

         String[] fields = value.toString().split("\t");

         String md5 = fields[0];
         String url = fields[1];
         String date = fields[2];
         String time = fields[3];
         String ip = fields[4];

         BSONObject b = new BasicBSONObject();
         b.put("md5", md5);
         b.put("url", url);
         b.put("date", date);
         b.put("time", time);
         b.put("ip", ip);
         context.write( new ObjectId(), b);
}
  }
  public static void main(String[] args) throws Exception{ 
      final Configuration conf = new Configuration(); 
      MongoConfigUtil.setOutputURI(conf,
      "mongodb://<HOST>:<PORT>/test. weblogs"); 
      System.out.println("Configuration: " + conf); 
      final Job job = new Job(conf, "Export to Mongo"); 
      Path in = new Path("/data/weblogs/weblog_entries.txt"); 
      FileInputFormat.setInputPaths(job, in); 
      job.setJarByClass(ExportToMongoDBFromHDFS.class); 
      job.setMapperClass(ReadWeblogs.class); 
      job.setOutputKeyClass(ObjectId.class); 
      job.setOutputValueClass(BSONObject.class); 
      job.setInputFormatClass(TextInputFormat.class); 
      job.setOutputFormatClass(MongoOutputFormat.class); 
      job.setNumReduceTasks(0); 
      System.exit(job.waitForCompletion(true) ? 0 : 1 ); 
   } 
}

        
          
        
        
        
          
          AI 代码解读

8．导出为一个可运行的JAR文件，并运行该作业：

hadoop jar ExportToMongoDBFromHDFS.jar

        
          
        
        
        
          
          AI 代码解读

9．在Mongo shell上验证weblogs已经导入MongoDB：

db.weblogs.find();

        
          
        
        
        
          
          AI 代码解读

工作原理
Mongo Hadoop适配器提供了一种新的兼容Hadoop的文件系统实现包括MongoInputFormat和MongoOutputFormat。这些抽象实现使得访问MongoDB和访问任何兼容Hadoop的文件系统一样。

《Hadoop实战手册》一1.7 从HDFS导出数据到MongoDB

1.7 从HDFS导出数据到MongoDB

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《Hadoop实战手册》一1.7 从HDFS导出数据到MongoDB

1.7 从HDFS导出数据到MongoDB

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像