使用EMR Spark Relational Cache跨集群同步数据

  1. 云栖社区>
  2. Apache Spark中国技术社区>
  3. 博客>
  4. 正文

使用EMR Spark Relational Cache跨集群同步数据

开源大数据EMR 2019-06-05 17:32:08 浏览1096
展开阅读全文

Relational Cache相关文章链接:

使用Relational Cache加速EMR Spark数据分析

背景

Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度,Relational Cache还可以应用于其他很多场景,本文主要介绍如何使用Relational Cache跨集群同步数据表。
通过统一的Data Lake管理所有数据是许多公司追求的目标,但是在现实中,由于多个数据中心,不同网络Region,甚至不同部门的存在,不可避免的会存在多个不同的大数据集群,不同集群的数据同步需求普遍存在,此外,集群迁移,搬站涉及到的新老数据同步也是一个常见的问题。数据同步的工作通常是一个比较痛苦的过程,迁移工具

网友评论

登录后评论
0/500
评论
开源大数据EMR
+ 关注
所属云栖号: Apache Spark中国技术社区