《数据虚拟化:商务智能系统的数据架构与管理》一 1.11 数据集成的其他方式

简介: 本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第1章,第1.11节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.11 数据集成的其他方式

使用数据虚拟化可以集成数据,但是这并不是集成来自不同数据存储中数据的唯一方式。正如1.4节所讲,存在不同的技术方法来集成数据,包括ETL、ELT和复制。本节会简要解释这些其他方式,更多信息参见2.7节。
ETL(提取-转换-装载)是数据集成的一种方式,它在数据仓库环境中被大量使用。使用ETL,集成化可以通过从多个源数据存储中复制数据来实现,通过将集成的、转换的结果存储在独立的目标数据存储中来实现。保留集成化数据需要后者。目标数据存储可能是数据使用者正在访问的数据存储(如图1-10所示)。因为目标数据存储中的所有数据都是以某种方式从源数据存储中的数据导出的,所以它也被称为派生数据存储。

screenshot

在复制过程中,数据被结合、转换和清洗。通常这个复制过程是预先安排好的。在确定的时间间隔内,新数据从数据源里被提取出来,集成并存储到派生数据存储中。如果数据虚拟化提供按需集成,那么ETL提供预定好的集成。
ELT(提取-装载-转换)从某种程度上来讲是ETL的一种特殊版本。通过ELT,数据仍然是被拷贝到一个派生的数据存储里并且转换也是预定好的。ETL和ELT的主要区别是动作执行的顺序。在ETL中,在派生数据存储中的数据已经被转换和清洗。在ELT中,提取的数据首先被存储在派生数据存储中,随后被转换和清洗,这导致了存储的第二种形式(如图1-11所示)。从某种程度上来讲,所有数据都被存储两遍。
第三种数据集成方法叫作复制。鉴于ETL和ELT,复制过程是预先安排好的,并且分批传送数据,当源数据已经被插入或现存数据已经被更新或删除,复制就开始了。实际上,就在这个改变发生之后,数据就会被复制到一个目标数据存储中。所以数据不是被分批复制的,而是或多或少地作为独立记录或小组记录。通常,复制只需要几微秒。
因为通过复制,拷贝就发生在源数据被改变之后,并且因为拷贝进程本身的速度是非常快的(只有一些记录),目标数据存储中的数据有一个非常低的接近于最新的延时。
复制通常被归类为一种数据集成技术,但这实际上可能不正确。尽管一些数据复制技术可以从多个数据源中复制并集成数据,但这不是它的强项。换句话说,复制与其说是一种数据集成技术,不如说是一种具有有限集成和转换特征的快速数据拷贝技术。实际上,复制的强项是拷贝数据的速度和保持目标数据存储中数据与源数据存储中数据同步的能力。

screenshot

相关文章
|
5月前
|
缓存 测试技术 数据中心
【计算机架构】计算 CPU 动态功耗 | 集成电路成本 | SPEC 基准测试 | Amdahl 定律 | MIPS 性能指标
【计算机架构】计算 CPU 动态功耗 | 集成电路成本 | SPEC 基准测试 | Amdahl 定律 | MIPS 性能指标
250 0
|
6月前
|
存储 DataWorks Unix
Dataworks数据集成之“文本数据”
Dataworks不是支持文本数据导入么?为什么Excel数据不能导入?CSV文件不就是Excel文件么?关于这些问题,我整理了一篇文章进行解释。
767 2
|
1月前
|
Kubernetes 测试技术 持续交付
探索微服务架构下的持续集成与部署最佳实践
本文将深入探讨在微服务架构下实施持续集成与部署的最佳实践,介绍如何利用现代化工具和流程来实现自动化测试、持续集成、灰度发布等关键环节,帮助开发团队提升交付效率和质量。
|
1月前
|
分布式计算 DataWorks Java
DataWorks常见问题之数据集成导出分区表的全量数据如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
37 0
|
3月前
|
DataX
datax数据推送,汉字乱码
datax数据推送,汉字乱码.
152 1
|
3月前
|
DataWorks 关系型数据库 MySQL
DataWorks的数据集成实时同步mysql数据吗?
DataWorks的数据集成实时同步mysql数据吗?
120 0
|
4月前
|
数据采集 存储 自然语言处理
【数据挖掘】数据清洗、数据集成、数据标准化的详解(超详细 附源码)
【数据挖掘】数据清洗、数据集成、数据标准化的详解(超详细 附源码)
91 0
|
4月前
|
存储 分布式计算 安全
【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)
【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)
291 0
|
5月前
|
存储 监控 大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第八章数据集成和互操作篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第八章数据集成和互操作篇
|
6月前
|
存储 运维 DataWorks
DataWorks是阿里云推出的一款云数据集成、数据开发、数据运维一体化的数据开发平台
DataWorks是阿里云推出的一款云数据集成、数据开发、数据运维一体化的数据开发平台
125 4