数据上云,应该选择全量抽取还是增量抽取?

  1. 云栖社区>
  2. 数据中台>
  3. 博客>
  4. 正文

数据上云,应该选择全量抽取还是增量抽取?

伴弋 2019-10-23 14:21:26 浏览2076
展开阅读全文

作者:向师富 转自:阿里巴巴数据中台官网https://dp.alibaba.com
概述
数据抽取是指从源数据抽取所需要的数据, 是构建数据中台的第一步。 数据源一般是关系型数据库,近几年,随着移动互联网的蓬勃发展,出现了其他类型的数据源,典型的如网站浏览日期、APP浏览日志、IoT设备日志
从技术实现方式来讲,从关系型数据库获取数据,可以细分为全量抽取、增量抽取2种方式,两种方法分别适用于不用的业务场景

增量抽取

  • 时间戳方式

用时间戳方式抽取增量数据很常见,业务系统在源表上新增一个时间戳字段,创建、修改表记录时,同时修改时间戳字段的值。 抽取任务运行时,进行全表扫描,通过比较抽取任务的业务时间、时间戳字段来决定抽取哪些数据。
此种数据同步方式,在准确率方面有两个弊端:
1、只能获取最新的状态,无法捕获过程变更信息,比如电商购物场景,如果客户

网友评论

登录后评论
0/500
评论
伴弋
+ 关注
所属团队号: 数据中台