2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析-阿里云开发者社区

2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析

2019-10-08 2519

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文来自2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》

本文来自2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》

作者：王道远，花名健身，阿里云EMR技术专家，Apache Spark活跃贡献者，主要关注大数据计算优化相关工作。

Document_page_001

分四部分介绍阿里云EMR团队在Spark Relational Cache上的工作。
Document_page_002

项目介绍

EMR为用户提供了丰富的应用，可以进行各种数据分析。
Document_page_004

在云上进行数据分析时，需要在支持大规模数据的同时，实现快速的分析。Spark目前用户数量庞大，然而Spark目前的数据缓存机制，不支持缓存在跨会话共享，也需要使用者改写SQL查询才能利用缓存好的数据。
Document_page_005

Spark Relational Cache 内建于EMR Spark中，为这种场景提供了一种解决方案。
Document_page_006

Spark Relational Cache 用户透明且支持数据更新，未来还会支持缓存方案自动推荐。
Document_page_007

核心技术主要分三部分：数据预计算、数据预组织、查询自动重写。
Document_page_009

数据预计算：由于数据之间是直接有关系的，查询间通常有一些通用模式。通过预计算可以大大加速查询。
Document_page_010

Spark Relational Cache 引入执行计划重写，用户无需修改查询语句即可使用缓存好的数据。
Document_page_011

下面是两个查询自动重写的简单示例。
Document_page_012
Document_page_013

数据预组织则是为了进一步优化读取预计算好的数据的过程。通过对数据进行排序和全局索引的构建，使用列式存储格式，在需要读取一定量的数据时，可以显著减少查询时间。
Document_page_014

Spark Relational Cache 提供了 DDL 语句用于定义缓存。
Document_page_016

两种数据更新策略，在加速的同时能保证数据准确。Spark Relational Cache目前也支持基于分区的增量更新，后续会有更细粒度的增量更新支持。
Document_page_017

用Star Schema Benchmark进行测试。
Document_page_019

由于EMR Spark的优化，1TB数据构建时间约为1小时，明显优于同类产品。
Document_page_020

使用 Spark Relational Cache 可以获得200倍以上的性能提升。
Document_page_021

欢迎加入Spark技术交流钉钉二群进行交流：