开发者社区大数据文章正文

【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务

2017-02-27 2630

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Alex Lv与Amber Vaidya在Hadoop Summit Tokyo 2016上的演讲，主要分享了构建于Spark和Hadoop上的开源数据质量平台Griffin，Griffin可以用于处理批量数据、实时数据和非结构化的数据，并且构建了统一的过程来检测无效或者不准确等DQ问题，讲义中介绍了eBayGriffin的技术架构、以及用例等。

本讲义出自Alex Lv与Amber Vaidya在Hadoop Summit Tokyo 2016上的演讲，主要分享了构建于Spark和Hadoop上的开源数据质量平台Griffin，Griffin可以用于处理批量数据、实时数据和非结构化的数据，并且构建了统一的过程来检测无效或者不准确等DQ问题，讲义中介绍了eBayGriffin的技术架构、以及用例等。

e6705bd264fb7b5a5262f51a80902ea6f67445bf

9f9648022f3db655b2df007702b4fa6bbe3a9789

66d6f6c9ecb99596117c4fdd46fea5613ba37b69

d787b36250d7092e43bcb5f32ad0fa548075c9f1

0b8bd2d5a8bd3d4c2235b5b3e05bedd0ae090938

3d6868cf80515a28d3309e8040fbe18da75a8ffc

43149dc4c81602aca547bd14ecff49c28d9b3b19

1c7874787f2c9d4bdee92abed63cd7f9b3f79a6b

e06d2633259682ebb96c7f32192e958be34f5354

c626769679f85708661bdf77a4b429c43896c788

aa62a7c80cc6a1ac21f4bda947c28b5373308639

41aa3bedc2d2bf4a24c54cc9f699d27f4d1372e2

658d009a031eca5de61e8dff762f1715e9248ae0

76730a12ffa6a56f43ad02aa341127e6f7901473

5f01035799c2beccd0b3260d57f63008887ca58b

bae26f857d1e820dd1f28ab6e2f184e1dd08a4a1

17c57dec59dc613d172c48c81802c1f0e3cf9d86

8300d914e4f05e034c3636c69eb1f0c468f5d89b

126531d247d39519c29d5e5f1effac0c8335423d

227d2c1a59d190cf0c30498bee094187f3855ac7

304d10388d3c7368aca688c8f3c428d6738e33b5

2ba2dcd11158bc6771cfd585c3c6695801552e16

文章标签：

分布式计算

Hadoop

数据采集

关键词：

hadoop构建

hadoop数据

hadoop服务

hadoop数据质量

hadoop summit

小猫吃鱼569

游客moiomvrp3vyac2

3月前

存储分布式计算 Hadoop

Hadoop：驭服数据洪流的利器

在当今信息大爆炸的时代，海量数据成为企业决策的重要依据。本文将介绍大规模数据处理框架Hadoop的概念与实践，探讨其在解决大数据应用中的重要性和优势。从分布式计算、高可靠性、扩展性等方面深入剖析Hadoop的工作原理，并结合实例说明如何利用Hadoop来处理海量数据，为读者提供了解和运用Hadoop的基础知识。

游客moiomvrp3vyac2

26 2 2

零零年夏

5月前

存储分布式计算 Hadoop

Hadoop怎么处理数据

零零年夏

99 0 0

长梦

9天前

SQL 分布式计算 Hadoop

利用Hive与Hadoop构建大数据仓库：从零到一

【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理，而Hive作为基于Hadoop的数据仓库系统，通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建，为企业决策和创新提供支持。

长梦

40 1 1

小白学大数据

2月前

数据采集存储分布式计算

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

小白学大数据

23 1 2

晓之以理的喵~~

3月前

分布式计算关系型数据库 Hadoop

使用Sqoop将数据从Hadoop导出到关系型数据库

晓之以理的喵~~

75 0 0

星光下的赶路人

8月前

星光下的赶路人

96 0 0

Maynor

4月前

存储 Linux

[hadoop3.x]HDFS之银行海量转账数据分层案例(八)

Maynor

109 1 1

yuanzhengme

4月前

分布式计算资源调度 Hadoop

Hadoop【部署 02】hadoop-3.1.3 单机版YARN（配置、启动停止shell脚本修改及服务验证）

yuanzhengme

46 0 0

Maynor

4月前

分布式计算 Hadoop 大数据

大数据成长之路-- hadoop集群的部署(4)退役旧数据节点

Maynor

52 0 0

星光下的赶路人

8月前

数据采集缓存分布式计算

Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结（二）

星光下的赶路人

65 0 0

【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景