MaxCompute有关优化复杂数据分布的实践

  1. 云栖社区>
  2. 阿里巴巴大数据 —玩家社区>
  3. 博客>
  4. 正文

MaxCompute有关优化复杂数据分布的实践

少杰 2017-11-26 13:43:15 浏览3433
展开阅读全文

这是MaxCompute有关SQL优化器原理的系列文章之一。我们会陆续推出SQL优化器有关优化规则和框架的其他文章。添加钉钉群“关系代数优化技术”(群号11719083)可以获取最新文章发布动态。

group_jpeg

概述

数据分布的问题在大数据处理领域由来已久。很不幸,如今流行的大数据处理系统仍然没有很好地解决这个问题。在MaxCompute 2.0全新的优化器中,我们引入了复杂数据分布,添加了分区剪枝、分布上拉、下推以及分布对齐等优化措施。本文将从数据分布的历史和原理开始,介绍我们的思路和解决办法。

理解数据分布

提到数据分布,很多人会想到MPP DBMS。的确,我们通常说只有MPP DBMS才需要考虑数据分布优化。先考虑一个流行的分布式数据库分类学:

  1. Shared Everything: 区别于后两类,这一类基本不是分布式的。
  2. Shared Disk: 数

网友评论

登录后评论
0/500
评论
少杰
+ 关注