1. 云栖社区>
  2. 全部标签>
  3. #catalyst#
catalyst

#catalyst#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Spark SQL 性能优化再进一步:CBO 基于代价的优化

本文将介绍 CBO,它充分考虑了数据本身的特点(如大小、分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan。

大数据 性能优化 SQL spark string analyze statistics CBO sparksql catalyst

SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执行计划,Catalyst的优劣决定了SQL执行的性能。

e-mapreduce 查询优化 Other bigdecimal CBO sparksql catalyst RBO

扩展Spark Catalyst,打造自定义的Spark SQL引擎

在Spark2.2版本中,引入了新的扩展点,使得用户可以在Spark session中自定义自己的parser,analyzer,optimizer以及physical planning stragegy rule。

hadoop 函数 SQL 测试 spark scala string parse catalyst

1
GO