自建hadoop集群迁移到EMR之数据迁移篇

  1. 云栖社区>
  2. 阿里云E-MapReduce(EMR)>
  3. 博客>
  4. 正文

自建hadoop集群迁移到EMR之数据迁移篇

鸿初 2018-01-18 15:47:49 浏览2672
展开阅读全文

自建集群要迁移到EMR集群,往往需要迁移已有数据。本文主要介绍hdfs数据和hive meta数据如何迁移。

前置

已按需求创建好EMR集群。

迁移hdfs数据

主要依靠distcp,核心是打通网络,确定hdfs参数和要迁移内容,测速,迁移。

网络

需要自建集群和EMR各个节点网络互通。同为VPC网络只需要同一个安全组,不同的安全组需要设置安全组互通。

如果自建集群是经典网络,EMR集群是vpc,网络访问需要设置CLASSICLINK.参见文档,详情可以咨询ECS客服。

设置后可以在新集群节点上ssh 老集群节点确定网络连通情况,distcp操作如果有xx 节点无法连接xx节点的异常,说明没有连通,需要继续设置。

hdfs权限配置确认

hdfs有权限设置,确定老集群是否有acl规则,是否要同步,检查dfs.permissions.enabled 和d

网友评论

登录后评论
0/500
评论
鸿初
+ 关注
所属云栖号: 阿里云E-MapReduce(EMR)