DTS开发记录(5)-- 挑战增量导出

简介: 增量导出恐怕是DTS系统中最艰难的部分了,我们曾考虑过很多方案,最后都因为需要表大纲做一定的假设而不具备通用性而放弃。有很多效率较高的方案,由于为了追求通用性而无法实现,因为现实的情况比我们理想的要复杂许多。

    增量导出恐怕是DTS系统中最艰难的部分了,我们曾考虑过很多方案,最后都因为需要表大纲做一定的假设而不具备通用性而放弃。有很多效率较高的方案,由于为了追求通用性而无法实现,因为现实的情况比我们理想的要复杂许多。
    下面将列举我们曾考虑的几种主要方案,这些方案乍一看似乎都很有希望,可通过层层分析,最后都因为复杂的现实情况而胎死腹中。

1.触发器
    这是一个非常简单直接的解决方案,我们只需要将DTS引擎驻留在比如windows服务中,该引擎通过数据库的触发器事件获取源表数据更新的所有情况,即增量,然后相应的更新目的表。然而,由谁来创建触发器了?
    我们DTS系统的任务是将数据从一个表迁移到另外一个表,它所拥有的权限是:
(1)读取源表
(2)读写目的表
    我们没有创建触发器的权限,更别说接收触发器的事件了。
    触发器方案马上被否决!

2.查询数据库的增量记录
    触发器方案被否决后,我们退而求其次,我们希望所有的数据库都提供了某种机制,能让我们查询指定表的增量记录。比如,我们给出一个时间段和指定表的名称,调用数据库的某个函数或存储过程或扩展SQL命令,数据库返回一个结果数据集,这个数据集中包含了指定的时间段内,指定表中有哪些数据是新添加的、哪些数据被删除了、哪些数据是更新过的。如果能进行这样的数据库增量查询,那么增量导出也会比较简单。
    为此,我们寻找了相关的资料,主要针对Oracle和SqlServer,到现在为止,还没有发现其中的一个数据库内置了类似的机制。其实,我们可以想想,数据库当然可以实现这样的机制,但是代价可能非常高昂。比如,数据库要记录“删除增量”,如果对应的指定表没有设置主键,数据库该用什么来唯一标志被删除的记录了,可能的办法是使用临时表把被删除的记录完整的记录下来,如果要完整的记录下被删除的记录,那么临时表的大纲就需要与指定表的大纲完全相同。因此,数据库需要为每个表都建一个大纲完全相同的表来存储这些增量记录。随时间流逝,无疑,这些临时表中的数据会越来越多,那么,谁来负责删除这些临时表中的增量记录数据了?该删除哪些增量记录了?
    我们知道,大多数据库都实现了增量备份的功能,如果增量备份不是采用主条记录比对的话,可能就是使用了临时表,这样,增量备份的时刻就是数据库清空临时表的最佳时机。但是对于随机的、可重复性的增量导出来说,还存在清空临时表的时机吗?也许你刚刚清空了临时表的部分记录,而我再一次类似的增量导出可能需要用到你刚清除的那些增量记录。
    看来,我们希望所有的数据库(不仅仅是Oracle和SqlServer)提供一种机制、自动为我们记录所有时间内每个表的增量是不太可能的。该方案被否决。

3.双排序逐条记录比对
    我们再一次退而求其次,采用最笨的逐条记录比对的方法。最笨的方案中也可以用一些效率较高的技巧,我们首先考虑到的是双排序逐条记录比对。
    所谓双排序,只的是对存在于源表中的记录和目的表中的记录都采用主键排序的方式,这样通过主键值相同来识别匹配的记录,然后再比对其余的字段来判断数据是否更新;如果源表中的某条记录在目的表中没有找到匹配,表明这条记录是新增加的。
   如何判断那条记录是删除的?通常的做法是采用反向遍历,即从目标表中选取一条记录,然后遍历源表,如果没有发现这条记录,则表明发现了一个删除增量。
    采用双排序的方法,可以很快的识别删除增量。我们分别为已排序的源记录和已排序的目标记录设置一个指针,这个指针只能单步前进,然后将两个指针指向的记录拿出来进行主键值比较,如果发现相同,则说明发现了匹配,处理该条记录,然后两个指针各前进一步;如果源主键值较小,则说明该条记录是新增加的;如果源主键值较大,则说明目的指针指向的当前记录已经在源表中被删除,这是一个删除增量。
    这种方案似乎是可行的,虽然要逐条比对,但是效率也不会太低。
    可是,如果所操作的表采用的是联合主键了(即,联合主键中的任何一个键的数据都可能是重复的,但是将它们联合起来,在表中却又是唯一的)?我们仍然可以进行实现排序,记录匹配也同样可以进行,只不多前面我们通过主键值相等来进行匹配,这里需要通过多个列的值全相等来进行匹配。
    我们再考虑复杂一点的情况,如果主键进行了分裂,或者参与了合并的情况了?经过排序后,主键的值是有序的,可是主键分裂的值(或者合并后的目标值)却不一定是有序的。这样就没有办法进行双排序操作了。因为当操作源数据中的任意一条记录时,都可能需要遍历目的表中的所有记录。

4.单排序逐条记录比对
    我们现在采用的方法是单排序逐条记录比对,即只对源表记录排序,然后逐条记录处理。这样效率要低得多,但是任务反而变得单纯些。效率最低的地方体现在识别“删除增量”,因为要用到反向遍历操作。我们希望找到更好的方法来替代它。

     在实际的实现中,你可能还会遇到一些困难,比如,我们的源表/目的表中的记录非常多,所以不可能一次将它们读入到内存中,我们需要分页。标准的sql不支持分页,针对不同的数据库有不同的实现方式,特别是当复杂的排序(如联合主键排序)掺杂在其中时,分页操作更为困难。再就是,对BLOB、CLOB、LOB数据的比对,是否要一个一个byte的进行比较来决定其是否为“更新增量”了?
    另外,我们需要对增量导出做更细粒度的控制,比如可以让其选择在增量导出时能分别控制开启或关闭“Add增量”、“Update增量”、“Delete增量”的导出。如果我们确信不需要“Delete增量”导出,那么就可以节省大量的导出执行时间。


转到:DTS开发记录(序)

目录
相关文章
|
3月前
|
NoSQL Redis 数据库
数据传输DTS中金融云跨账号同步Redis,增量校验报错了
【1月更文挑战第16天】【1月更文挑战第80篇】数据传输DTS中金融云跨账号同步Redis,增量校验报错了
64 1
|
1月前
|
NoSQL 数据库连接 数据处理
数据传输DTS迁移问题之全量加增量发到目标库如何解决
数据传输服务(DTS)是一项专注于数据迁移和同步的云服务,在使用过程中可能遇到多种问题,本合集精选常见的DTS数据传输问题及其答疑解惑,以助用户顺利实现数据流转。
236 0
|
弹性计算 分布式计算 关系型数据库
Mysql5.7使用DTS增量同步数据到MaxCompute
本文介绍了使用适应增量同步Mysql5.7数据同步到MaxCompute同步方式,主要过程为设置mysql5.7的binlog,以及使用DTS同步Mysql同步所有数据之前的全量数据操作,以及增量数据同步的配置,以及最后整合最后数据之前的全部数据。
901 0
使用DTS同步MySQL增量数据到Tablestore
摘要 从MySQL到Tablestore的全量数据导出可以参考同系列文章《数据同步-从MySQL到Tablestore》,本文主要介绍将MySQL的增量数据同步到Tablestore的一种方式——使用阿里集团的数据传输服务DTS的数据订阅功能做增量数据的读取以及改写。
1505 0
|
关系型数据库 数据库 RDS
RDS PG如何安装DTS需要的增量迁移插件?
确定要迁移或同步的源数据库,如,以根用户,使用DMS或psql客户端登陆到源库上,创建插件:dbname=> create extension ali_decoding; 联系DBA,修改源端参数wal_level为logical,并重启实例。
1629 0
|
SQL 关系型数据库 MySQL
DTS增量/同步支持DDL迁移的说明
    DTS目前并不支持所有数据库类型时间的DDL迁移,特别是异构数据库之间的迁移.不得不承认DDL的迁移是非常的,因为这涉及到DDL的解析(DDL的过滤)及转换(库表列映射及异构数据库).毕竟DDL是一个高危操作,稍有不慎就肯能造成不可恢复的故障.
3328 0
|
数据库 数据可视化 SQL
DTS开发记录(序)
(原文发表于2006-06-27 ,修正于2006-07-03)    目前手头上正在负责一个DTS(这里的DTS是Data Transfer System的缩写)系统的开发,我打算写一系列的文章来记录这个开发的全过程,这个记录可以说是实时的--每当遇到一个重要问题或解决一个重要问题,我将记录之。
1135 0
|
数据库 监控 数据库连接
DTS开发记录(1)--系统总体结构
(原文发表于2006-06-28 ,修正于2006-07-03)    在DTS开发记录(序)一文中,我们已经明白了当前这个Data Transfer System的主要目标和存在的难点与挑战。
1003 0
|
数据库 数据处理
DTS开发记录(2)-- 数据管道及插件
通过前面两篇文章(已于2006-07-03修正)的介绍,我们已经大致明白了系统的目标的总体结构,从这篇文章开始,我们将逐渐深入到系统内部。    本文讲述数据管道,数据管道是用于在数据源/数据目标与DataTable之间进行数据传递的组件,它是与数据库类型和文件类型相关的,数据从数据源经过数据管道后,就变成与数据源类型无关的数据了,这样映射编辑和数据引擎便能对它们进行一致的处理。
772 0
|
数据库 关系型数据库 Oracle
DTS开发记录(3)-- 连接与连接对
在 DTS开发记录(2)-- 数据管道及插件 一文中,我们介绍了数据管道,IDataPipeFactory的CreateDataPipe方法需要一个IConnection参数,这个参数就表示一个连接。
855 0

热门文章

最新文章