基于DataIDE数据集成实现香港ECS上的MySQL数据同步到数加MaxCompute

简介: 最近有朋友问,客户在香港ECS上搭建的MySQl,大概有100GB以上的数据,能否通过MaxCompute做海量数据分析,我的回答是YES! 但客户担心香港与大陆之前数据连通性问题,我的回答依然是YES! 为了让更多个客户不再困扰,笔者做了一份教程,可以通过大数据开发套件中的经典网络进行同步数据

最近有朋友问,客户在香港ECS上搭建的MySQl,大概有100GB以上的数据,能否通过MaxCompute做海量数据分析,我的回答是YES!

但客户担心香港与大陆之间数据连通性问题,我的回答依然是YES!

为了让更多个客户不再困扰,笔者做了一份教程,可以通过大数据开发套件中的经典网络进行同步数据,有图为证!


准备工作

1、注册并开通阿里云账号、Access id、Access Key;开通方法:https://help.aliyun.com/document_detail/47703.html?spm=5176.doc30266.6.544.NLgOin

2、购买并开通香港区域经典网络ECS;购买地址:https://ecs.console.aliyun.com/#/create/prepay/?data=eyJkYXRhIjp7InZtX3JlZ2lvbl9ubyI6ImNuLWhvbmdrb25nLWFtNC1jMDQifX0%3D

3、下载并搭建MySQL 5.7 ;下载地址:https://dev.mysql.com/downloads/windows/installer/5.7.html

4、购买并开通MaxCompute、大数据开发套件;开通方法:https://help.aliyun.com/document_detail/30263.html?spm=5176.doc30262.6.546.El4j9u


跨区域数据同步

1、设置ECS安全组

进入ECS管控台->ECS管理,设置安全组,添加外网3306 IP访问权限;

 

 f7501526b478741cca22874302e833fc6b47c67d

 

2、添加数据源


通过控制台进入大数据开发套件;


ff5c1472379417d231e14b1bb1ee283b61c1f786


点击数据集成->左侧列表"数据源"页面->点击右上交“新增数据源”;

输入数据源MySQL57_hk,选择MySQL 经典网络,MySQL的JDBC地址、账号信息;

点击连通性验证网络;如果不通,请参照本文常见问题;

bdd8210dc59e5aadef68e7cf737f718dcfb90851


3、创建并设置同步任务

点击进入同步任务,选择需要导入的源表;

数据源MySQL57_hk,选择或通过搜索框查找"movie_info_mysql_hk",点击下一步;


df1526a0b37c79b3b39e424888ff29139c9e248e


选择目标数据库opds_first,点击快速建表,同步表结构,修改脚本中的表名,改为movie_info,点击提交;


28177f3a3c70d6a3aad1a539025657335733a9bd



分区信息默认为时间变量,点下一步;

a1f4b5e978a929b172a2e068212e55ddd55d1124


字段自动映射,跳过即可;


b79ea84c0c6552095b42a48488dfc6acb0f3db69


通道控制默认,点击下一步;


dba3675343ee87b23ec5d46e2c49ad0ee9e5d21a


预览后,点击保存;


51168c6cff4076afab9946c9619e48b2ebbad9e7

点击保存后,命名数据同步任务名称hk_mysql_data1;


4e435607d0dd6b3730033f1575e1d91a24f26313


4、执行并验证数据

手动执行数据同步,点击运行,选择当天时间戳;


dcc275e50bd4e456c5e0d3b4f16b977ecf3c21a8


 执行完成后,我们去验证一下数据;


035d1363c518548ae9cd11584c22c04e92ef9dbf



进入大数据开发套件->数据开发;


5eea9708a60af6bc47f519f73d796dd1b5323568

 


验证导入的数据;

 

 


29f764b8e3c082425cdb7cc571f850b90010a7af


实验遇到的问题 


Q:大数据开发套件(数据集成)中连接不上ECS上的MySQL ,提示:测试连接失败,测试数据源连通性失败:连接数据库失败数据库连接串:jdbc:mysql://47.90.89.23:3306/MySQL57-hk, 用户名:root, 异常消息:Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.


A进入ECS安全组规则->设置网络入口访问权限,测试的话可以设置为0.0.0.0/0;

f7501526b478741cca22874302e833fc6b47c67d


Q:大数据开发套件(数据集成)中连接不上ECS上的MySQL ,提示:测试连接失败,测试数据源连通性失败:连接数据库失败数据库连接串:jdbc:mysql://47.90.89.23:3306/mysql, 用户名:root, 异常消息:null, message from server: "Host '121.43.110.160' is not allowed to connect to this MySQL server"


A:MySQL设置远程访问权限,参照:http://kouss.com/aliyun-ecs-mysql-allow-navicat.html


c35f8419f39373be2b6c7b53c4b6c38757999e8b

 

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
SQL 分布式计算 DataWorks
可以使用HiveSyncTask任务将HDFS中的数据同步到MaxCompute中
可以使用HiveSyncTask任务将HDFS中的数据同步到MaxCompute中
52 2
|
2月前
|
弹性计算 数据中心
香港阿里云服务器速度快、稳定性高、BGP多线精品
香港阿里云服务器速度快、稳定性高、BGP多线精品
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
2月前
|
SQL 分布式计算 关系型数据库
Dataphin实现MaxCompute外表数据快速批量同步至ADB MySQL
当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。 DataphinV3.14版本支持外表导入SQL的带参调度,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。
283 1
|
4月前
|
存储 分布式计算 安全
【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)
【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)
291 0
|
5月前
|
SQL 消息中间件 存储
TuGraph Analytics动态插件:快速集成大数据生态系统
插件机制为GeaFlow任务提供了外部数据源的集成能力扩展,GeaFlow支持从各类Connector中读写数据,GeaFlow将它们都识别为外部表,并将元数据存储在Catalog中。GeaFlow已有一些内置的插件,例如FileConnector,KafkaConnector,JDBCConnector,HiveConnector等。
|
5月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute
MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute
37 1
|
6月前
|
SQL 弹性计算 分布式计算
阿里云李腾飞:基于ECS倚天实例的大数据加速最佳实践
2023年9月14日,系列课程第八节《基于ECS倚天实例的大数据加速最佳实践》正式播出,阿里云弹性计算大数据优化负责人李腾飞主讲,内容涵盖倚天大数据场景迁移适配、倚天大数据性能加速实践和倚天大数据场景落地实践。
阿里云李腾飞:基于ECS倚天实例的大数据加速最佳实践
|
7月前
|
消息中间件 分布式计算 Kafka
大数据Spark Structured Streaming集成 Kafka
大数据Spark Structured Streaming集成 Kafka
66 0
|
7月前
|
消息中间件 分布式计算 Kafka
大数据Spark Streaming集成Kafka
大数据Spark Streaming集成Kafka
85 0

相关产品

  • 云原生大数据计算服务 MaxCompute