SQL 查询的分布式执行与调度

  1. 云栖社区>
  2. Apache Spark中国技术社区>
  3. 博客>
  4. 正文

SQL 查询的分布式执行与调度

开源大数据EMR 2020-02-03 15:00:47 浏览2122
展开阅读全文

作者:张茄子,算法、 分布式技术和函数式编程爱好者


OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。

这些算法和模型将主要在 SQL 和关系模型的语境之内讨论, Spark 和 Flink 这类基于 DAG 的处理系统内也有很多相似的概念,在本文中将不会赘述。

基础模型

Volcano 模型

《SQL 查询优化原理与 Volcano Optimizer 介绍》中,我们已经对以关系代数为基础的 SQL 查询优化算法进行了介绍,本文的很多内容也将建立在前文内容的基础之上。首先我们来介绍在单线程执行环境下广为人知的经典模型——Volcano 模型。(值得


网友评论

登录后评论
0/500
评论
开源大数据EMR
+ 关注
所属团队号: Apache Spark中国技术社区