数据到hadoop的迁移-阿里云开发者社区

数据到hadoop的迁移

2017-11-17 1464

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 RDS MySQL Serverless，0.5-2RCU 50GB

简介： 最近在用flume和sqoop来做非关系数据(日志)和关系数据(MYSQL)迁移到hdfs的工作，简单记录下使用过程，以此总结一 flume的使用使用flume把web的log日志数据导入到hdfs上步骤 1 在 elephant 节点上先安装...

最近在用flume和sqoop来做非关系数据(日志)和关系数据(MYSQL)迁移到hdfs的工作，简单记录下使用过程，以此总结
一 flume的使用
使用flume把web的log日志数据导入到hdfs上
步骤
1 在 elephant 节点上
先安装flume sudo yum install --assumeyes flume-ng
2 创建配置文件
vi /etc/hadoop/conf/flume-conf.properties

tail1.sources = src1
tail1.channels = ch1
tail1.sinks = sink1
tail1.sources.src1.type = exec
tail1.sources.src1.command = tail -F /tmp/access_log
tail1.sources.src1.channels = ch1
tail1.channels.ch1.type = memory
tail1.channels.ch1.capacity = 500
tail1.sinks.sink1.type = avro
tail1.sinks.sink1.hostname = localhost
tail1.sinks.sink1.port = 6000
tail1.sinks.sink1.batch-size = 1
tail1.sinks.sink1.channel = ch1
##
collector1.sources = src1
collector1.channels = ch1
collector1.sinks = sink1
collector1.sources.src1.type = avro
collector1.sources.src1.bind = localhost
collector1.sources.src1.port = 6000
collector1.sources.src1.channels = ch1
collector1.channels.ch1.type = memory
collector1.channels.ch1.capacity = 500
collector1.sinks.sink1.type = hdfs
collector1.sinks.sink1.hdfs.path = flume/collector1
collector1.sinks.sink1.hdfs.filePrefix = access_log
collector1.sinks.sink1.channel = ch1

配置文件说明结构是
src取日志数据,通过内存传送到本地以avro文件格式保存，做中转，然后从avro文件，通过内存传送到hdfs上。hdfs保存路径是flume/collector1，

3 在hfds上创建保存目录
hadoop fs -mkdir -p flume/collector1

4 模拟产生大量日志文件，在log目录中
$ accesslog-gen.bash /tmp/access_log
5 启动日志收集器
flume-ng agent --conf /etc/hadoop/conf/ \
--conf-file /etc/hadoop/conf/flume-conf.properties \
--name collector1
6 启动日志采集器
$ flume-ng agent \
--conf-file /etc/hadoop/conf/flume-conf.properties \
--name tail1

二 sqoop的使用
使用sqoop把mysql中的表数据导入到hdfs
1安装sqoop
sudo yum install --assumeyes sqoop
2在sqoop的lib下创建一个mysql连接的驱动链接，也就是在sqoop的lib下面能找到mysql的驱动包
就是在/usr/lib/sqoop/lib目录，创建 $ sudo ln -s /usr/share/java/mysql-connector-java.jar /usr/lib/sqoop/lib/
3导入数据
sqoop help
用sqoop查看mysql中有哪些数据库
sqoop list-databases \
--connect jdbc:mysql://localhost \
--username training --password training
再看看库里有哪些表
sqoop list-tables \
--connect jdbc:mysql://localhost/movielens \
--username training --password training
开始导入命令表movie到hdfs，表中字段的数据用tab分割
sqoop import \
--connect jdbc:mysql://localhost/movielens \
--table movie --fields-terminated-by '\t' \
--username training --password training
4验证
hadoop fs -ls movie
hadoop fs -tail movie/part-m-00000
可以看到数据已文件形式保存到hdfs

相关实践学习

基于CentOS快速搭建LAMP环境

本教程介绍如何搭建LAMP环境，其中LAMP分别代表Linux、Apache、MySQL和PHP。

全面了解阿里云能为你做什么

阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程，来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品：云服务器ECS 云服务器 ECS（Elastic Compute Service）是一种弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs

数据到hadoop的迁移

热门文章

最新文章

相关课程

相关电子书

相关实验场景