EMR Spark Relational Cache如何支持雪花模型中的关联匹配

  1. 云栖社区>
  2. 阿里云E-MapReduce(EMR)>
  3. 博客>
  4. 正文

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

阿里云E-MapReduce团队 2019-07-01 11:24:07 浏览5081
展开阅读全文

作者:李呈祥,阿里巴巴计算平台事业部EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,深度参与了Hadoop,Hive,Spark,Flink等开源项目的研发工作,对于SQL引擎,分布式系统有较为深入的了解和实践,目前主要专注于EMR产品中开源计算引擎的优化工作。

Relational Cache相关文章链接:
使用Relational Cache加速EMR Spark数据分析
使用EMR Spark Relational Cache跨集群同步数据
EMR Spark Relational Cache的执行计划重写

背景

Join是Spark SQL中非常常见的操作,数据表按照业务语义的范式化表定义,便于用户理解与使用,而且可以消除冗余数据。用户通过join操作将相关的数据关联

网友评论

登录后评论
0/500
评论
阿里云E-MapReduce团队
+ 关注
所属云栖号: 阿里云E-MapReduce(EMR)