EMR Spark Relational Cache 利用数据预组织加速查询

  1. 云栖社区>
  2. 阿里云E-MapReduce(EMR)>
  3. 博客>
  4. 正文

EMR Spark Relational Cache 利用数据预组织加速查询

阿里云E-MapReduce团队 2019-08-12 10:53:27 浏览378
展开阅读全文

作者:
王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。


Relational Cache相关文章链接:
使用Relational Cache加速EMR Spark数据分析
使用EMR Spark Relational Cache跨集群同步数据
EMR Spark Relational Cache的执行计划重写
EMR Spark Relational Cache如何支持雪花模型中的关联匹配

背景

在利用Relational Cache进行查询优化时,我们需要通过预计算,存储大量数据。而在查询时,我们真正需要读取的数据量也许并不大。为了能让查询实现秒级响应,这就涉及到优化从大量数据中快速定位所需数据的场景。本文介绍在EMR Spark Relational Cache中,我们如何针对这种


网友评论

登录后评论
0/500
评论
阿里云E-MapReduce团队
+ 关注
所属云栖号: 阿里云E-MapReduce(EMR)