《Hadoop实战手册》一1.4 使用Sqoop从MySQL数据库导入数据到HDFS

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:

本节书摘来异步社区《Hadoop实战手册》一书中的第1章,第1.4节,作者: 【美】Jonathan R. Owens , Jon Lentz , Brian Femiano 译者: 傅杰 , 赵磊 , 卢学裕 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.4 使用Sqoop从MySQL数据库导入数据到HDFS

Sqoop是Apache基金下的一个项目,是庞大Hadoop生态圈中的一部分。在很多方面Sqoop和distcp很相似(见1.3节)。这两个工具都是构建在MapReduce之上的,利用了MapReduce的并行性和容错性。与集群间的数据复制不同,Sqoop设计通过JDBC驱动连接实现Hadoop集群与关系数据库之间的数据复制。

它的功能非常广泛,本节将以网络日志条目为例展示如何使用Sqoop从MySQL数据库导入数据到HDFS。

准备工作
本例子使用Sqoop V1.3.0版本。

如果你使用的是CDH3版本,Sqoop默认是已经安装了。如果不是CDH3,你可以通过https://ccp.cloudera.com/display/CDHDOC/Sqoop+Installation找到发行版的说明。

在本节假设你已经启动了一个MySQL实例,并且能够访问Hadoop集群6。mysql.user该表配置了你运行Sqoop的那台机器上被允许连接的用户。访问http://dev.mysql.com/doc/refman/5.5/en/installing.html获取更多关于MySQL安装与配置的相关信息。

将MySQL JDBC驱动包复制到$SQOOP_HOME/libs7目录下。该驱动包可以从http://dev.mysql.com/downloads/connector/j/下载。

操作步骤
完成以下步骤实现将MySQL表数据导出到HDFS中。

1.在MySQL实例中创建一个新数据库:

CREATE DATABASE logs;

2.创建并载入表weblogs:

USE logs;
CREATE TABLE weblogs (
    md5            VARCHAR(32),
    url            VARCHAR(64),
    request_date   DATE,
    request_time   TIME,
    ip             VARCHAR(15)
);
LOAD DATA INFILE '/path/weblog_entries.txt' INTO TABLE weblogs 
FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\r\n';

3.查询weblogs表的行数:

mysql> select count(*) from weblogs;

输出结果将会是:

+----------+ 
| count(*) | 
+----------+ 
|     3000 | 
+----------+ 
1 row in set (0.01 sec)
4.将MySQL数据导出到HDFS:

sqoop import -m 1 --connect jdbc:mysql://<HOST>:<PORT>/logs--username hdp_usr --password test1 --table weblogs --target-dir /data/weblogs/import

输出结果将会是:

INFO orm.CompilationManager: Writing jar file: 
/tmp/sqoop-jon/compile/f57ad8b208643698f3d01954eedb2e4d/weblogs. jar 
WARN manager.MySQLManager: It looks like you are importing from mysql. 
WARN manager.MySQLManager: This transfer can be faster! Use the --direct 
WARN manager.MySQLManager: option to exercise a MySQL-specific fast path. 
... 
INFO mapred.JobClient: Map input records=3000 
INFO mapred.JobClient: Spilled Records=0 
INFO mapred.JobClient: Total committed heap usage (bytes)=85000192 
INFO mapred.JobClient: Map output records=3000 
INFO mapred.JobClient: SPLIT_RAW_BYTES=87 
INFO mapreduce.ImportJobBase: Transferred 245.2451 KB in 13.7619 seconds 
(17.8206 KB/sec) 
INFO mapreduce.ImportJobBase: Retrieved 3000 records.

工作原理
Sqoop连接数据库的JDBC驱动在--connect语句中定义,并从$SQOOP_HOME/libs目录中加载相应的包,其中$SQOOP_HOME为Sqoop安装的绝对路径。--username和--password选项用于验证用户访问MySQL实例的权限。mysql.user表必须包含Hadoop集群每个节点的主机域名以及相应的用户名,否则Sqoop将会抛出异常,表明相应的主机不允许被连接到MySQL服务器。

mysql> USE mysql; 
mysql> select host, user from user;

显示输出如下:

+-------------+-----------+ 
| user        | host      | 
+-------------+-----------+ 
| hdp_usr     | hdp01     | 
| hdp_usr     | hdp02     | 
| hdp_usr     | hdp03     | 
| hdp_usr     | hdp04     | 
| root        | 127.0.0.1 | 
| root        | ::1       | 
| root        | localhost | 
+-------------+-----------+ 
7 rows in set (1.04 sec)

在这个例子中,我们使用hdp_usr用户连接到MySQL服务器。我们的集群拥有4台机器,即hdp01、hdp02、hdp03和hdp04。

--table变量告诉Sqoop哪个表需要被导入。在我们的例子中,是要导入weblogs这个表到HDFS。--target-dir变量决定了导出的表数据将被存储在HDFS的哪个目录下:

hadoop fs -ls /data/weblogs/import

输出结果为:

-rw-r--r--   1 hdp_usr hdp_grp   0      2012-06-08   23:47 /data/
weblogs/import/_SUCCESS 

drwxr-xr-x- - hdp_usr hdp_grp    0      2012-06-08   23:47 /data/
weblogs/import/_logs 

-rw-r--r--   1 hdp_usr hdp_grp   251131 2012-06-08   23:47 /data/
weblogs/import/part-m-00000

默认情况下,导入的数据将按主键进行分割。如果导入的表并不包含主键,必须指定-m或者--split-by参数决定导入的数据如何分割。在前面的例子中,使用了-m参数。-m参数决定了将会启动多少个mapper来执行数据导入。因为将-m设置为1,所以就启动了一个mapper用于导入数据。每个mapper将产生一个独立的文件。

这行命令背后隐藏了相当复杂的逻辑。Sqoop利用数据库中存储的元数据生成每一列的DBWritable类,这些类使用了DBInputFormat。DBInputFormat是Hadoop用来格式化读取数据库任意查询的结果。在前面的例子中,启动了一个使用DBInputFormat索引weblogs表内容的MapReduce作业。整个weblogs表被扫描并存储在HDFS的路径/data/weblogs/import下。

更多参考
使用Sqoop导入数据还有很多有用的参数可以配置。Sqoop可以分别通过参数--as-avrodatafile和--as-sequencefile将数据导入为Avro文件和序列化的文件。通过-z或者--compress参数可以在导入的过程中对数据进行压缩。默认的压缩方式为GZIP压缩,可以通过--compression-codec 参数使用Hadoop支持的任何压缩编码。可以查看第2章的使用LZO压缩数据那一节的介绍。另一个有用的参数是--direct,该参数指示Sqoop直接使用数据库支持的本地导入导出工具。在前面的例子中,如果--direct被添加为参数,Sqoop将使用mysqldump工具更快地导出weblogs表的数据。--direct参数非常重要以至于我们在运行前面的日志会打印出如下的日志信息:

WARN manager.MySQLManager: It looks like you are importing from mysql. 
WARN manager.MySQLManager: This transfer can be faster! Use the --direct 
WARN manager.MySQLManager: option to exercise a MySQL-specific fast path.

延伸阅读

  • 使用Sqoop从HDFS导出数据到MySQL(1.5节)。
相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
3月前
|
SQL 分布式计算 Oracle
使用Sqoop从Oracle数据库导入数据
使用Sqoop从Oracle数据库导入数据
使用Sqoop从Oracle数据库导入数据
|
1月前
|
SQL 关系型数据库 MySQL
Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
【2月更文挑战第9天】Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
88 7
|
1月前
|
分布式计算 关系型数据库 MySQL
Sqoop【部署 01】CentOS Linux release 7.5 安装配置 sqoop-1.4.7 解决警告并验证(附Sqoop1+Sqoop2最新版安装包+MySQL驱动包资源)
【2月更文挑战第8天】Sqoop CentOS Linux release 7.5 安装配置 sqoop-1.4.7 解决警告并验证(附Sqoop1+Sqoop2最新版安装包+MySQL驱动包资源)
93 1
|
4天前
|
分布式计算 Hadoop 测试技术
Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
【4月更文挑战第5天】Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
28 8
|
4天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
29 9
|
5天前
|
分布式计算 Hadoop Shell
Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第4天】Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
18 5
|
8天前
|
存储 分布式计算 Hadoop
【Hadoop】HDFS 读写流程
【4月更文挑战第9天】【Hadoop】HDFS 读写流程
|
6天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
24 2
|
6天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
8天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
39 1