如何把数据从 Mysql 导入到 Greenplum

本文涉及的产品
云服务器 ECS,每月免费额度280元 3个月
对象存储 OSS,20GB 3个月
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:

本文介绍给大家几个把数据从 Mysql 导入到 Greenplum 的方法

自阿里云推出 Greenplum 服务以来,很多公测用户希望把自己在 Mysql 中的数据放到 Greenplum 用于进行数据分析。而且很多客户的数据量相当大。在这里我向大家提供几种经过验证的向云上 Greenplum 导入大量数据的方法。

一:使用 COPY 命令导入数据

1 COPY语法

特点:
1. Greenplum 提供的原生数据导入方法。
2. 需要先把数据从 Mysql 导出成文本文件。
3. 适合少量数据上云,导入过程中数据会经过 Greenplum 的 Master 节点,所以性能不会特别理想。

二: 通过阿里云开源的工具 mysql2pgsql 导入

2 mysql2pgsql 使用方法

特点:
1. Mysql 导入 Greenplum DB 到 DB 不落地的导入方案,简单实用。
2. 推荐购买 ECS,和在 ECS 上使用该工具,特别适合从 RDS Mysql/ECS 自建实例导入数据。
3. 该工具已经开源了代码,各位可以定制自己的需求。
4. 该工具写入端也会走 Master 节点,所以性能不会特别理想。

三: 通过 OSS 导入大量数据

3 gp_oss_ext 使用方法

4 ossfs 使用方法

该方法的流程如下:
1. 购买和开通阿里云 ECS,OSS 服务。
2. 在 ECS 上使用 ossfs 包挂载购买的 oss 为本地文件系统。
3. 在 ECS 上安装 mysql 二进制RPM。
4. 使用 mysqldump 命令流式获取源库中对应表中的数据,并增量写入到 oss 中。
5. 使用 gp_oss_ext 在 Greenplum 中创建 oss 外部表,并行的将数据导入到 Greenplum 中。

mysqldump 导出举例:

nohup /home/mysql/bin/mysqldump -h192.168.1.1 -P3306 -utest -ptest testdb testtab | sed 's/),(/\n/g;s/NULL//g' | split -l 1000000 - /ossdata/testtab/data. 1>/home/test/testtab.out 2>&1 &

上面的举例有几个要点,大家可以根据自己的需求定制

1. 用户可以使用 mysqldump 导出数据,也可以使用 mysql 命令,如果数据量较大,建议使用 --quick 参数,避免内存不足。
2. mysqldump 跟上的 sed 命令是为了格式化导出的数据,以符合 Greenplum 导入的格式规范,大家可以根据需求定制这一项。
3. split 也是一个比较关键的点。它用于定制切割和存放文件的规则。原因有以下两点
    3.1 oss 上普通文件有大小限制
    3.2 gp_oss_ext 并行导入 oss 上的数据是以文件为单位并发的,推荐在 OSS 上使用虚拟文件夹存放对应一个表的所有数据。

从 OSS 装载数据的特点:

1. 这是一个应对大量数据导入到 Greenplum 的方法,可以轻松从 Mysql 导入上百G,甚至上T的数据到 Greenplum。
2. 不需要很大的缓冲临时空间,数据是流式写入到 OSS 的。
3. 导出和导入时以表为单位进行的,使用者可以并发操作多个表以提高整体的性能。
4. 该方法的性能远好于前两种,导入到云上 Greenplum 规格越大,性能也会越好。
相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
13天前
|
缓存 NoSQL 关系型数据库
13- Redis和Mysql如何保证数据⼀致?
该内容讨论了保证Redis和MySQL数据一致性的几种策略。首先提到的两种方法存在不一致风险:先更新MySQL再更新Redis,或先删Redis再更新MySQL。第三种方案是通过MQ异步同步以达到最终一致性,适用于一致性要求较高的场景。项目中根据不同业务需求选择不同方案,如对一致性要求不高的情况不做处理,时效性数据设置过期时间,高一致性需求则使用MQ确保同步,最严格的情况可能涉及分布式事务(如Seata的TCC模式)。
37 6
|
20天前
|
SQL 关系型数据库 MySQL
轻松入门MySQL:保障数据完整性,MySQL事务在进销存管理系统中的应用(12)
轻松入门MySQL:保障数据完整性,MySQL事务在进销存管理系统中的应用(12)
|
27天前
|
关系型数据库 MySQL
elasticsearch对比mysql以及使用工具同步mysql数据全量增量
elasticsearch对比mysql以及使用工具同步mysql数据全量增量
21 0
|
29天前
Mybatis+mysql动态分页查询数据案例——测试类HouseDaoMybatisImplTest)
Mybatis+mysql动态分页查询数据案例——测试类HouseDaoMybatisImplTest)
20 1
|
29天前
Mybatis+mysql动态分页查询数据案例——工具类(MybatisUtil.java)
Mybatis+mysql动态分页查询数据案例——工具类(MybatisUtil.java)
15 1
|
26天前
|
关系型数据库 MySQL
MySQL查询当天昨天明天本月上月今年等数据
MySQL查询当天昨天明天本月上月今年等数据
19 2
|
26天前
|
关系型数据库 MySQL 开发工具
MySQL分组后,组内排序,然后取每组的第一条数据
MySQL分组后,组内排序,然后取每组的第一条数据
15 1
|
27天前
|
canal SQL 关系型数据库
MySQL数据直接实时同步到ES
MySQL数据直接实时同步到ES
32 0
|
29天前
|
Java 数据库连接 mybatis
Mybatis+mysql动态分页查询数据案例——Mybatis的配置文件(mybatis-config.xml)
Mybatis+mysql动态分页查询数据案例——Mybatis的配置文件(mybatis-config.xml)
19 1
|
29天前
Mybatis+mysql动态分页查询数据案例——配置映射文件(HouseDaoMapper.xml)
Mybatis+mysql动态分页查询数据案例——配置映射文件(HouseDaoMapper.xml)
15 1