EMR Spark Relational Cache如何支持雪花模型中的关联匹配

  1. 云栖社区>
  2. Apache Spark中国技术社区>
  3. 博客>
  4. 正文

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

司麟嘟嘟嘟 2019-06-28 12:05:09 浏览3653
展开阅读全文

Relational Cache相关文章链接:

使用Relational Cache加速EMR Spark数据分析
使用EMR Spark Relational Cache跨集群同步数据
EMR Spark Relational Cache的执行计划重写

背景

Join是Spark SQL中非常常见的操作,数据表按照业务语义的范式化表定义,便于用户理解与使用,而且可以消除冗余数据。用户通过join操作将相关的数据关联后进行进一步的过滤,聚合等操作。在Spark中,Join通常是代价比较大,尤其是当join的两个表的数据都比较大,无法优化为map join时,需要通过网络shuffle两个表的数据,对数据按照jion字段进行重新组织。Relational Cache是EMR Spark支持的重要特性,类似于数据仓库的物化视图,将反范式化表(即

网友评论

登录后评论
0/500
评论
司麟嘟嘟嘟
+ 关注
所属云栖号: Apache Spark中国技术社区