《大数据集成(1)》一第1章   大数据集成的挑战和机遇

简介:

本节书摘来自华章出版社《大数据集成(1)》一书中的第1章,作者 [美] 董欣(Xin Luna Dong)戴夫士·斯里瓦斯塔瓦(Divesh Srivastava),更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章 大数据集成的挑战和机遇

  大数据时代是数据化的必然结果:我们能将世界中的每个事件和交互都转化成数字数据,同时期望从这些数据中分析和抽取出价值。大数据带来许多愿景,使我们能做出由数据驱动的有价值的决策,并以此来改变社会的方方面面。
  当前各种各样的领域都在产生和使用着大数据,包括数据驱动的科学、电信、社交媒体、大型电子商务、病历和电子健康(e-health)等等。由于不同数据进行链接和融合会使数据的价值爆炸性地增大,因而大数据集成(Big Data Integration, BDI)问题是在各领域内实现大数据美好愿景的关键。
  例如,最近有很多工作通过挖掘万维网抽取出实体、关系以及本体等,以构建通用知识库,如Freebase [Bollacker et al. 2008]、Google知识图谱 [Dong et al. 2014a]、ProBase [Wu et al. 2012]和Yago [Weikum and Theobald 2010]等。这些工作均显示,使用集成的大数据可以改善Web搜索和Web规模的数据分析。
  另一个重要的例子是,近年来产生了大量有地理参照的数据,如有地理标记的Web对象(如照片、视频、推文)、在线登记(如Foursquare)、WiFi日志、车辆的GPS轨迹(如出租车)以及路边传感器网络等。这些集成的大数据为刻画大规模人类移动提供了契机[Becker et al. 2013],并对公共卫生、交通工程和城市规划等领域产生了影响。
  本章中,1.1节描述大数据集成的问题和传统数据集成的要素。1.2节讨论BDI带来的特定挑战。我们首先确定BDI不同于传统数据集成的方面,然后给出几个研究BDI中数据源特性的最新研究案例。BDI还提供了传统数据集成不能提供的机会,1.3节重点介绍其中的一些机会。最后,1.4节给出本书其余部分的章节安排。

相关文章
|
9月前
|
数据采集 SQL 分布式计算
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
973 0
|
4月前
|
存储 分布式计算 安全
【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)
【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)
286 0
|
5月前
|
SQL 消息中间件 存储
TuGraph Analytics动态插件:快速集成大数据生态系统
插件机制为GeaFlow任务提供了外部数据源的集成能力扩展,GeaFlow支持从各类Connector中读写数据,GeaFlow将它们都识别为外部表,并将元数据存储在Catalog中。GeaFlow已有一些内置的插件,例如FileConnector,KafkaConnector,JDBCConnector,HiveConnector等。
|
5月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute
MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute
35 1
|
7月前
|
消息中间件 分布式计算 Kafka
大数据Spark Structured Streaming集成 Kafka
大数据Spark Structured Streaming集成 Kafka
66 0
|
7月前
|
消息中间件 分布式计算 Kafka
大数据Spark Streaming集成Kafka
大数据Spark Streaming集成Kafka
83 0
|
9月前
|
SQL 运维 数据库连接
数据集成:针对离线集成任务超时的优化策略【Dataphin V3.11】
集成任务作为数据中台和外部数据库链接的数据桥梁,常常需要应对与处理复杂的外部数据库与网络环境。一旦外部的数据库出现异常,集成任务就会卡在某个状态:如一直在尝试与数据库连接,或者在数据库过载的时候还在一直在尝试执行SQL……这些异常状态都会导致集成任务无法长时间卡住,无法完成。
176 0
|
10月前
|
数据采集 关系型数据库 MySQL
大数据数据采集的数据迁移(同步/传输)的Sqoop之DataX
在大数据领域中,数据迁移是一个非常重要的任务。而Sqoop是一款流行且实用的数据迁移工具,但是它对于某些特定场景的数据迁移并不太方便。为了解决这个问题,阿里巴巴集团开发了一款开源的数据集成工具DataX,提供了更多的数据迁移方式和功能。本文将介绍DataX的基本原理和使用方法,希望能够为大家提供一些参考和帮助。
272 0
|
11月前
|
消息中间件 SQL 存储
《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(1)
《《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(1)
224 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
46 0