阿里巴巴开源项目: 阿里巴巴去Oracle数据迁移同步工具

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:

背景

08年左右,阿里巴巴开始尝试MySQL的相关研究,并开发了基于MySQL分库分表技术的相关产品,Cobar/TDDL(目前为阿里云DRDS产品),解决了单机Oracle无法满足的扩展性问题,当时也掀起一股去IOE项目的浪潮,愚公这项目因此而诞生,其要解决的目标就是帮助用户完成从Oracle数据迁移到MySQL上,完成去IOE的第一步.

项目介绍

名称: yugong

译意: 愚公移山

语言: 纯java开发

定位: 数据库迁移 (目前主要支持oracle -> mysql/DRDS)

项目介绍

整个数据迁移过程,分为两部分:

  1. 全量迁移
  2. 增量迁移

过程描述:

  1. 增量数据收集 (创建oracle表的增量物化视图)
  2. 进行全量复制
  3. 进行增量复制 (可并行进行数据校验)
  4. 原库停写,切到新库

架构


说明:

  1. 一个Jvm Container对应多个instance,每个instance对应于一张表的迁移任务
  2. instance分为三部分
    a. extractor (从源数据库上提取数据,可分为全量/增量实现)
    b. translator (将源库上的数据按照目标库的需求进行自定义转化)
    c. applier (将数据更新到目标库,可分为全量/增量/对比的实现)

方案设计

全量方案

业界常用的全量方案有:

  1. 数据文件导入/导出,比如EXPDP/IMPDP, mysqldump/source, xtrabackup等
  2. ETL数据导入/导出,主要原理为使用JDBC数据查询接口

yugong在项目设计之初考虑去IOE数据迁移的灵活性和自定义能力,最终选择的方案为基于JDBC接口遍历数据.

相比于数据文件导入/导出,其优点:

  • 灵活数据同步
  • 支持异构数据
  • 实现相对简单

缺点:

  • 全量拉取需要配合增量使用,会有部分数据重复同步
  • 性能和影响,一次性全量拉取,如果持续时间过长,如果此时数据库变更过多,会导致segment过大

增量方案

业界常用的增量方案有:

  1. 基于时间戳定时dump
  2. oracle日志文件,比如LogMiner,OGG
  3. oracle CDC(Change Data Capture)
  4. oracle trigger机制,比如DataBus , SymmetricDS
  5. oracle 物化视图(materialized view)
  6. ...

yugong在项目设计之初考虑去IOE数据迁移的灵活性,支持多种oracle版本,同时为降低DBA的运维成本,最终选择oracle物化视图作为我们的增量方案.

相比于其他,物化视图方案其优点:

  • 原理简单,方便理解和学习,用户可以理解为一种固化的简易trigger模式
  • 运维简单,DBA一次账户授权后,程序可按需create一张物化视图表即可完成增量订阅
  • 相对透明,不需要像时间戳sql扫描依赖数据库表设计,也不需要关注oracle版本和服务器存储等

缺点:

  • 性能和影响,类似于trigger机制会对源库的数据写入造成一定的性能影响.

QuickStart

See the page for quick start: QuickStart

AdminGuide

See the page for admin deploy guide: AdminGuide

Performance

See the page for yugong performance : Performance

相关资料

  1. yugong简单介绍ppt : ppt
  2. 分布式关系型数据库服务DRDS (前身为阿里巴巴公司的Cobar/TDDL的演进版本, 基本原理为MySQL分库分表)

问题反馈

  1. qq交流群: 537157866
  2. 邮件交流: jianghang115@gmail.com
  3. 新浪微博: agapple0002
  4. 报告issue:issues
相关实践学习
Polardb-x 弹性伸缩实验
本实验主要介绍如何对PolarDB-X进行手动收缩扩容,了解PolarDB-X 中各个节点的含义,以及如何对不同配置的PolarDB-x 进行压测。
相关文章
|
4月前
|
分布式计算 Oracle 关系型数据库
oracle自动同步maxcomputejava.lang.NullPointerException
oracle自动同步maxcomputejava.lang.NullPointerException
37 1
|
7月前
|
Oracle 关系型数据库 流计算
flink cdc 同步oracle idea启动可以全量同步,服务器环境不同步。standalone模式
flink cdc 同步oracle idea启动可以全量同步,服务器环境不同步。standalone模式
|
4天前
|
存储 Oracle 关系型数据库
Oracle数据泵:数据迁移的魔法棒
【4月更文挑战第19天】Oracle数据泵是高效的数据迁移工具,提供并行处理、灵活数据过滤、完整数据保留及详细日志记录等功能。相比传统工具,数据泵在性能和易用性上更具优势,能大幅缩短迁移时间,降低业务中断风险。通过掌握其使用技巧,数据管理员可以充分利用数据泵,提升数据管理效率。
|
2月前
|
Oracle 关系型数据库 Apache
Flink cdc报错问题之同步oracle报错如何解决
Flink CDC报错指的是使用Apache Flink的Change Data Capture(CDC)组件时遇到的错误和异常;本合集将汇总Flink CDC常见的报错情况,并提供相应的诊断和解决方法,帮助用户快速恢复数据处理任务的正常运行。
|
8月前
|
存储 SQL Oracle
【Oracle系列】- Oracle数据迁移
【Oracle系列】- Oracle数据迁移
91 1
|
4月前
|
SQL Oracle 关系型数据库
用flink sql同步数据到oracle吗?
用flink sql同步数据到oracle吗?
70 0
|
4月前
|
Oracle 关系型数据库 Java
oracle自动同步maxcomputejava.lang.NullPointerException
oracle自动同步maxcomputejava.lang.NullPointerException
22 0
|
4月前
|
SQL Oracle 关系型数据库
flinkcdc的oracle同步到oracle
flinkcdc支持oracle同步到oracle吗?
185 3
|
6月前
|
Oracle 关系型数据库 数据库连接
Windows系统安装配置Oracle数据库连接工具PLSQL
Windows系统安装配置Oracle数据库连接工具PLSQL
|
6月前
|
SQL Oracle 关系型数据库
Oracle连接工具PLSQL登录时提示初始化失败,无法锁定OCI.dll错误解决
Oracle连接工具PLSQL登录时提示初始化失败,无法锁定OCI.dll错误解决
309 0

推荐镜像

更多