《大数据集成(1)》一1.3 大数据集成:机遇

简介:

本节书摘来自华章出版社《大数据集成(1)》一书中的第1章,第1.3节,作者 [美] 董欣(Xin Luna Dong)戴夫士·斯里瓦斯塔瓦(Divesh Srivastava),更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.3 大数据集成:机遇

  大数据集成不仅带来许多以“V”维度为特征的挑战,如第1.2节中我们讨论的。另外,大数据集成与管理分析大数据的基础设施也成就许多机遇,以应对这些挑战。我们主要讨论三个这样的机遇。

1.3.1 数据冗余性

  从不同数据源得到的数据通常存在着部分重叠,因而导致要被集成的大量数据源之间存在巨大的数据冗余。
  在我们给出的航班例子中,这一点非常清楚。例如,有关Airline1航空公司的49号航班的Departure Airport、Scheduled Departure Time、Arrival Airpot和Scheduled Arrival Time的信息可以从Airline1、Airport3和Airfare4三个数据源中的任何一个获得。
  1.2.3节和1.2.4节中的案例研究表明多个领域中存在的冗余性。特别地,[Dalvi et al. 2012]的研究中提到在所研究的各个领域中每个实体所出现的数据源的个数平均还是较大的。如图1-3所示,每个旅店的电话号码平均出现在56个数据源中,而每个图书馆主页平均出现在251个数据源中。更进一步,这些高的平均值并不是由于数据分布的极端偏斜造成的;例如超过80%的餐馆电话号码出现在至少10个不同的数据源,如图1-2中的10-coverage曲线所示。类似地,[Li et al. 2012]的研究中判断出股票领域的16个常见属性和航班领域的6个常见属性,这些属性都分别出现在领域内三分之一以上被分析的数据源中。
  数据冗余的一个主要好处是可以有效地处理大数据集成中数据真实性带来的挑战,我们将在第4章对此进行详细讨论。直观地,如果仅有几个数据源提供有重叠的信息,而数据源对某数据项提供的值是有冲突的,则很难确信地判断出真值。但是如果像在大数据集成中一样存在大量的数据源,我们可以使用复杂的数据融合技术来发现真值。
  数据冗余的第二个好处是开始解决大数据集成中数据多样性带来的挑战,找到数据源模式之间的属性匹配,这在模式对齐中至关重要。直观地,如果一个领域存在很大程度的数据冗余,其实体和数据源的二分图具有良好的连通性(如[Dalvi et al. 2012]中所研究的领域),则可以从一组已知的种子实体出发,使用搜索引擎的技术发现该领域内的大部分实体。当这些实体在不同的数据源有不同的对应模式时,我们就可以很自然地找到不同数据源所使用的模式之间的属性匹配。
  数据冗余的第三个好处是能够为一个领域内的大数据集成发现相关数据源,如果数据源没有预先给定的话。直观的方法仍然是利用一个实体和数据源之间的良连通的二分图,从一组已知的种子实体出发,使用搜索引擎技术迭代地一次发现新的数据源和新实体。

1.3.2 长数据

  现实中很重要的一部分大数据是长数据(long data),即关于随时间演化的实体的数据。
  在我们给出的航班的例子中,航班时间表随时间演化,如Airline1.Schedule表所示。现实中,航空公司和飞机场数据源一般提供所估计的航班出发和到达时间,因而会在短时间内不断变化;航空公司的维护修理日志会提供关于飞机质量随时间变化的情况,等等。
  尽管我们在本章中前面讨论的案例研究中没有特别地讨论如何处理长数据,但我们将在后面章节中描述的一些技术,尤其是用于记录链接(第3章)和数据融合(第4章)的技术,很大程度上利用了长数据。
  直观地,现实世界中的实体演化导致它们的属性值随时间变化。包含这些实体的数据源所提供的信息不总是最新的,如Airfare4.Flight表中所示,过期的值是很普遍的。在这种情境下的记录链接和数据融合是具有挑战的,但是可以利用实体演化一般都是一个渐进和相对平滑的过程这一事实:i)即使航班的一些属性(如Scheduled Departure Time)演化,其他属性(如Departure Airport)不一定发生变化;ii)即使实体在短期内进行演化,这些属性值上的变化通常不会很奇特(例如,航空公司报告的一个航班的估计到达时间的变化)。

1.3.3 大数据平台

  近年来,建立在廉价硬件上的集群(如Hadoop)和分布式编程模型(如MapReduce)的可伸缩的大数据平台获得了重大进步,使大数据的管理和分析获益。
  由于大数据集成中的每个任务,模式对齐、记录链接和数据融合都需要很多的计算资源,所以大数据集成会是非常资源密集的。虽然要充分利用已有的大数据平台还有许多工作要做,但这一领域最近的工作已显示这些任务可以被有效地并行化。我们在后续章节将介绍一些这方面的技术,尤其是关于记录链接和数据融合的。

相关文章
|
13天前
|
存储 大数据 数据处理
矢量数据库与大数据平台的集成:实现高效数据处理
【4月更文挑战第30天】本文探讨了矢量数据库与大数据平台的集成,以实现高效数据处理。集成通过API、中间件或容器化方式,结合两者优势,提升处理效率,简化流程,并增强数据安全。关键技术支持包括分布式计算、数据压缩编码、索引优化和流处理,以优化性能和实时性。随着技术发展,这种集成将在数据处理领域发挥更大作用。
|
13天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
24 0
|
13天前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在DataWorks数据集成中,但是预览ODPS源数据库为空,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
23 0
|
13天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在DataWorks中,查看ODPS表的OSS对象如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 1
|
13天前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0
|
14天前
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之大数据计算MaxCompute dataworks可以批量修改数据集成任务的数据源配置信息吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
关系型数据库 Apache DataX
BDCC - 数据集成领域的主流中间件_ Apache SeaTunnel vs Flink CDC vs DataX vs Apache Sqoop vs Apache Flume
BDCC - 数据集成领域的主流中间件_ Apache SeaTunnel vs Flink CDC vs DataX vs Apache Sqoop vs Apache Flume
223 0
|
5月前
|
消息中间件 DataWorks NoSQL
dataworks离线数据集成,源库或目标库是MC时,走的是Tunnel? 还是走的是datax啊?
dataworks离线数据集成,源库或目标库是MC时,走的是Tunnel? 还是走的是datax啊?
113 0
|
5月前
|
存储 分布式计算 安全
【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)
【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)
328 0
|
6月前
|
SQL 消息中间件 存储
TuGraph Analytics动态插件:快速集成大数据生态系统
插件机制为GeaFlow任务提供了外部数据源的集成能力扩展,GeaFlow支持从各类Connector中读写数据,GeaFlow将它们都识别为外部表,并将元数据存储在Catalog中。GeaFlow已有一些内置的插件,例如FileConnector,KafkaConnector,JDBCConnector,HiveConnector等。

热门文章

最新文章