IDC / ECS自建和云数据库之间的数据搬站

1 IDC -> MaxCompute / EMR

【方案】：使用“独享数据集成资源组”，绑定可以连通用户IDC的用户VPC，然后提工单，由阿里云数据集成开发人员在独享数据集成资源组上配置路由，使独享数据集成资源组可以访问IDC内数据源。

1.1 IDC Hadoop（HDFS / Hive）-> EMR

【HDFS读取】：https://help.aliyun.com/knowledge_detail/137721.html
【HDFS写入】https://help.aliyun.com/knowledge_detail/137759.html

1.12 前期准备

创建好EMR集群，详细文档请参见：E-MapReduce集群创建
现在自建Hadoop迁移到E-MapReduce可以通过OSS进行过度，或者使用阿里云高速通道产品建立线下IDC和线上E-MapReduce所在VPC网络的连通。
配置DataWorks独享数据集成资源组，详细文档请参见：独享资源模式

本文以在华北2（北京）区域创建项目为例，同时启动Dataworks的相关服务。

2.12 数据准备

IDC集群测试数据准备，本例中HIVE建表语句如下：

CREATE TABLE IF NOT EXISTS test(
id INT,
name STRING,
hobby STRING,
region STRING
)
PARTITIONED BY(pt string)
row format delimited
fields terminated by ','
lines terminated by '\n'
;

插入测试数据：

insert into
test PARTITION(pt =1) values(1,'xiaoming','book','beijing'),(2,'lilei','TV','nanjing'),(3,'lihua','music','hebei'),(4,'xiaoma','draw','henan'),(5,'laoli','piano','heinan');

2.13 IDC自建Hadoop数据源连接
Dataworks数据集成-数据源管理-新增数据源-HDFS

使用“独享数据集成资源组”，绑定可以连通用户IDC的用户VPC，然后提工单，由阿里云数据集成开发人员在独享数据集成资源组上配置路由，使独享数据集成资源组可以访问IDC内数据源。

EMR的Hadoop数据源连接
Dataworks数据集成-数据源管理-新增数据源-HDFS

2.14 在EMR的Hadoop上创建目录来存放ECS集群同步过来的数据

hadoop fs -mkdir /emr_test

2.15 在DataWorks中创建数据同步节点
配置数据同步节点并点击转换为脚本模式，配置MaxCompute Reader 和 HDFS Writer 脚本可参考官方文档：配置HDFS Reader 和配置HDFS Writer
本文档中配置如下：

{                                                           
    "type": "job",
    "steps": [
        {
            "stepType": "hdfs",
            "parameter": {
                "path": "/user/hive/warehouse/gitdatabase.db/test/",
                "datasource": "IDC_EMR",
                "column": [
                    "*"
                ],
                "encoding": "UTF-8",
                "fieldDelimiter": ",",
                "fileType": "text"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "hdfs",
            "parameter": {
                "path": "/emr_test/",
                "fileName": "emr_test",
                "datasource": "IDC_EMR",
                "column": [
                    {
                        "name": "id",
                        "type": "int"
                    },
                    {
                        "name": "name",
                        "type": "string"
                    },
                    {
                        "name": "hobby",
                        "type": "string"
                    },
                    {
                        "name": "region",
                        "type": "string"
                    },
                    {
                        "name": "col5",
                        "type": "date"
                    }
                ],
                "writeMode": "append",
                "encoding": "UTF-8",
                "fieldDelimiter": ",",
                "fileType": "text"
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "version": "2.0",
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    },
    "setting": {
        "errorLimit": {
            "record": ""
        },
        "speed": {
            "concurrent": 2,
            "throttle": true,
            "mbps": "10"
        }
    }
}

配置独享资源组：

2.16 脚本按需求配置并保存，运行节点：

查看EMR集群hdfs数据是否同步成功：hadoop fs -cat /emr_test/*

1.2 IDC Kafka -> EMR Kafka

【Kafka读取】：https://help.aliyun.com/knowledge_detail/137745.html
【Kafka写入】https://help.aliyun.com/knowledge_detail/145510.html

1.21 环境准备

已完成阿里云EMR服务自动化搭建Kafka集群,详细文档请参见：E-MapReduce
数据工场DataWorks,详细文档请参见：DataWorks
购买独享数据集成资源，使独享资源组可以访问您的云资源,详细文档请参见：独享资源组模式
IDC自建需要与线上E-MapReduce所在网络的连通。

为保证您可以顺利登录EMR集群Header主机，及DataWorks可以顺利和EMR集群Header主机通信，请您首先配置EMR集群Header主机安全组，放行TCP 22及TCP 9092端口。
本文中在华北2（北京）区域创建项目，同时启动DataWorks相关服务。通过独享集成资源组绑定到与Kafka对应的VPC，点击专有网络绑定，选择与Kafka对应的交换机进行连接。

1.22 准备IDC kafka测试数据
创建测试Topic
执行如下命令创建测试所使用的Topic testkafka。

[root@emr-header-1 ~]# kafka-topics.sh --zookeeper emr-header-1:2181/kafka-1.0.1 --partitions 10 --replication-factor 3 --topic testkafka  --create
Created topic "testkafka".

执行如下命令查看已创建的Topic。

[root@emr-header-1 ~]# kafka-topics.sh  --list --zookeeper emr-header-1:2181/kafka-1.0.1
__consumer_offsets
_emr-client-metrics
_schemas
connect-configs
connect-offsets
connect-status
testkafka

写入测试数据
您可以执行如下命令，模拟生产者向Topic testkafka中写入数据。由于Kafka用于处理流式数据，您可以持续不断的向其中写入数据。为保证测试结果，建议您写入10条以上的数据。

[root@emr-header-1 ~]# kafka-console-producer.sh --broker-list emr-header-1:9092 --topic testkafka
>123
>abc
>

为验证写入数据生效，您可以同时再打开一个SSH窗口，执行如下命令，模拟消费者验证数据是否已成功写入Kafka。当数据写入成功时，您可以看到已写入的数据。

[root@emr-header-1 ~]# kafka-console-consumer.sh --bootstrap-server emr-header-1:9092 --topic testkafka --from-beginning
123
abc

1.23 在EMR kafka创建topic来放同步过来的数据：

[root@emr-header-1 ~]# kafka-topics.sh --zookeeper emr-header-1:2181/kafka-1.0.1 --partitions 10 --replication-factor 3 --topic emrkafka  --create
Created topic "testkafka".

1.24 数据同步
a. 在您的业务流程中右键单击数据集成，选择新建 > 数据集成 > 离线同步。
b. 新建数据同步节点后，您需要选择数据来源的数据源为kafka，数据去向的数据源为kafka,完成上述配置后，请单击下图框中的按钮，转换为脚本模式。
c. 完成脚本配置后，请首先切换任务资源组为您创建的独享资源组，然后单击运行。

1.25 确认数据导入
a. 完成运行后，您可以在运行日志中查看运行结果，如下为成功运行的日志。
b. 查看EMR Kafka数据是否成功写入。

1.3 IDC MySQL -> MaxCompute

【MySQL读取】
https://help.aliyun.com/knowledge_detail/137725.html
【MaxCompute写入】
https://help.aliyun.com/knowledge_detail/137466.html

1.31 环境准备

大数据计算服务MaxCompute,详细文档请参见：MaxCompute
数据工场DataWorks,详细文档请参见：DataWorks
购买独享数据集成资源，使独享数据资源可以访问您IDC的数据源，详细文档请参见：独享资源模式

1.32 数据采集
本文通过开通数据网关资源，使用DMS来管理IDC的MySQL。通过数据集成-数据源-新增数据源MySQL JDBC Url连接。

1.33 在MaxCompute中创建数据表存放同步过来的数据。本实例建表：idc_my。

1.34 数据同步
配置MySQL数据同步节点

配置数据集成任务时，将默认资源组配置为需要的独享数据集成资源。
通过向导模式配置任务时，在通道控制 > 任务资源组下拉框中，选择相应的独享数据集成资源。

确认当前节点的配置无误后，单击左上角的保存。
关闭当前任务，返回业务流程配置面板。

1.35 运行业务流程
右键单击rds_数据同步节点，选择查看日志。
当日志中出现如下字样，表示同步节点运行成功，并成功同步数据。

然后在数据开发页面，单击左侧导航栏中的临时查询，进入临时查询面板，再确认数据是否已经导入MaxCompute中。

2 云上ECS自建 -> MaxCompute / EMR

【方案】：使用“独享数据集成资源组”，绑定可以自建数据源所在用户VPC，然后提工单，由阿里云数据集成开发人员在独享数据集成资源组上配置路由，使独享数据集成资源组可以访问ESC内数据源。

2.1 ECS Hadoop（HDFS / Hive）-> EMR

【HDFS读取】：https://help.aliyun.com/knowledge_detail/137721.html
【HDFS写入】https://help.aliyun.com/knowledge_detail/137759.html

2.11 前提条件

配置DataWorks独享数据集成资源组，详细文档请参见：独享资源模式
创建好EMR集群。
由于 VPC 实现用户专有网络之间的逻辑隔离，E-MapReduce 建议使用 VPC 网络。
经典网络与 VPC 网络打通
如果 ECS 自建 Hadoop，需要通过 ECS 的classiclink的方式将经典网络和 VPC 网络打通，参见建立 ClassicLink 连接。
VPC 网络之间连通
数据迁移一般需要较高的网络带宽连通，建议新旧集群尽量处在同一个区域的同一个可用区内。

本文以在华北2（北京）区域创建项目为例，同时启动Dataworks的相关服务。

2.12 数据准备
ECS集群测试数据准备
本例中HIVE建表语句如下：

CREATE TABLE IF NOT EXISTS test(
id INT,
name STRING,
hobby STRING,
region STRING
)
PARTITIONED BY(pt string)
row format delimited
fields terminated by ','
lines terminated by '\n'
;

插入测试数据：

insert into
test PARTITION(pt =1) values(1,'xiaoming','book','beijing'),(2,'lilei','TV','nanjing'),(3,'lihua','music','hebei'),(4,'xiaoma','draw','henan'),(5,'laoli','piano','heinan');

2.13 ECS自建Hadoop数据源连接
Dataworks数据集成-数据源管理-新增数据源-HDFS

使用“独享数据集成资源组”，绑定可以自建数据源所在用户VPC，然后提工单，由阿里云数据集成开发人员在独享数据集成资源组上配置路由，使独享数据集成资源组可以访问ESC内数据源。

EMR的Hadoop数据源连接
Dataworks数据集成-数据源管理-新增数据源-HDFS

2.14 在EMR的Hadoop上创建目录来存放ECS集群同步过来的数据

hadoop fs -mkdir /emr_test

{                                                           
    "type": "job",
    "steps": [
        {
            "stepType": "hdfs",
            "parameter": {
                "path": "/user/hive/warehouse/gitdatabase.db/test/",
                "datasource": "IDC_EMR",
                "column": [
                    "*"
                ],
                "encoding": "UTF-8",
                "fieldDelimiter": ",",
                "fileType": "text"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "hdfs",
            "parameter": {
                "path": "/emr_test/",
                "fileName": "emr_test",
                "datasource": "IDC_EMR",
                "column": [
                    {
                        "name": "id",
                        "type": "int"
                    },
                    {
                        "name": "name",
                        "type": "string"
                    },
                    {
                        "name": "hobby",
                        "type": "string"
                    },
                    {
                        "name": "region",
                        "type": "string"
                    },
                    {
                        "name": "col5",
                        "type": "date"
                    }
                ],
                "writeMode": "append",
                "encoding": "UTF-8",
                "fieldDelimiter": ",",
                "fileType": "text"
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "version": "2.0",
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    },
    "setting": {
        "errorLimit": {
            "record": ""
        },
        "speed": {
            "concurrent": 2,
            "throttle": true,
            "mbps": "10"
        }
    }
}

配置独享资源组：

2.16 脚本按需求配置并保存，运行节点：

查看EMR集群hdfs数据是否同步成功：hadoop fs -cat /emr_test/*

2.2 ECS MySQL -> MaxCompute

【MySQL读取】
https://help.aliyun.com/knowledge_detail/137725.html
【MaxCompute写入】
https://help.aliyun.com/knowledge_detail/137466.html

2.21 环境准备

大数据计算服务MaxCompute,详细文档请参见：MaxCompute
数据工场DataWorks,详细文档请参见：DataWorks
购买独享数据集成资源，使Dataworks可以访问您的云资源,详细文档请参见：独享资源组模式
本文以在华北2（北京）区域创建项目为例，同时启动Dataworks的相关服务。经典网络ECS上自建的数据源和DataWorks在同已区域为例。

2.22 数据采集
（1）以项目管理员身份登录DataWorks控制台，单击相应工作空间后的进入数据集成。
（2）单击左侧导航栏中的数据源，即可跳转至工作空间管理 > 数据源管理页面。
（3）单击数据源管理页面右上角的新增数据源。
（4）在新增数据源对话框中，选择数据源类型为MySQL。
（5）填写MySQL数据源的各配置项。
MySQL数据源类型需要用连接串模式。

（6）单击测试连通性。
（7）连通性测试通过后，单击完成。

2.23 在MaxCompute中建立数据表，存放数据同步过来的数据。本次同步建表：test_tab。

2.24 新建数据同步任务
在DataWorks上新建数据同步节点，详情请参见数据同步节点。

配置数据集成任务时，将默认资源组配置为需要的独享数据集成资源。

完成上述配置后，单击运行即可。运行成功日志示例如下所示。

2.25 确认数据是否成功导入MaxCompute

3 云上DB -> MaxCompute / EMR

【方案】直接创建云上DB数据源，然后向导模式配置同步任务即可

3.1 RDS / Mongo -> MaxCompute

【创建RDS数据源】：https://help.aliyun.com/knowledge_detail/137690.html
【创建MongoDB数据源】：https://help.aliyun.com/knowledge_detail/137675.html
【MaxCompute写入】
https://help.aliyun.com/knowledge_detail/137466.html

3.11 环境准备

大数据计算服务MaxCompute,详细文档请参见：MaxCompute
数据工场DataWorks,详细文档请参见：DataWorks
3.12 数据采集

新增MySQL数据源
（6）以项目管理员身份登录DataWorks控制台，单击相应工作空间后的进入数据集成。
（7）单击左侧导航栏中的数据源，即可跳转至工作空间管理 > 数据源管理页面。
（8）单击数据源管理页面右上角的新增数据源。
（9）在新增数据源对话框中，选择数据源类型为MySQL。
（10）填写MySQL数据源的各配置项。
MySQL数据源类型包括阿里云实例模式和连接串模式。
以新增MySQL > 阿里云实例模式类型的数据源为例。

(6) 单击测试连通性。
(7) 连通性测试通过后，单击完成。

新增MongoDB数据源
（1）单击左侧导航栏中的数据源，即可跳转至工作空间管理 > 数据源管理页面。
（2）单击数据源管理页面右上角的新增数据源。
（3）在新增数据源对话框中，选择数据源类型为MongoDB。
（4）填写MongoDB数据源的各配置项。

MongoDB数据源类型包括实例模式（阿里云数据源）和连接串模式。
实例模式（阿里云数据源）：通常使用经典网络类型，同地区的经典网络可以连通，跨地区的经典网络不保证可以连通。
连接串模式：通常使用公网类型，可能产生一定的费用。
以新增MongDB > 实例模式（阿里云数据源）类型的数据源，经典网络为例。

(5) 单击测试连通性。
(6)测试连通性通过后，单击完成。

3.13 登录MongoDB的DMS控制台，本示例使用的数据库为admin，集合为abc。

3.14 新建表
（1）在数据开发页面打开新建的业务流程，右键单击MaxCompute，选择新建 > 表。
（2）在新建表对话框中，输入表名，单击提交。
此处需要创建2张表（msl_maxc和mon_maxc），分别存储同步过来的MySQL日志数据和MongoDB日志数据。

3.15 新建数据同步任务
在DataWorks上新建数据同步节点，详情请参见数据同步节点。

配置MySQL数据同步节点

配置MongoDB的数据同步节点。（不支持向导模式，此例为脚本模式）

  {
"type": "job",
"steps": [
{
"stepType": "mongodb",
"parameter": {
"datasource": "mon_maxc",
"column": [
{
"name": "store.bicycle.color",
"type": "document.string"
}
],
"collectionName": "abc"
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "odps",
"parameter": {
"tableType": null,
"partition": "",
"truncate": true,
"datasource": "odps_first",
"column": [
"*"
],
"guid": null,
"emptyAsNull": false,
"table": "mon_maxc"
},
"name": "Writer",
"category": "writer"
}
],
"version": "2.0",
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
},
"setting": {
"errorLimit": {
"record": ""
},
"speed": {
"concurrent": 2,
"throttle": false
}
}
}

3.15 完成上述配置后，单击运行即可。运行成功日志示例如下所示。