备案控制台

开发者社区

开发者社区大数据文章正文

sparksql-cache小表实现mapjoin优化性能

2017-03-16 8134

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

对于复杂sql且关联表较多的情况，数据倾斜是很常见的问题，几乎可以说不倾斜才是少见情况，而在不能改变原始数据（不能采用多阶段分段聚合），不能改变spark源码的情况下，除了调整各种参数，可操作的空间并不多。

对于表之间的join操作，一般来说我们都知道有map join和reduce join两种情况。因为reduce端会按map输出的key的分布处理相应的数据，在数据倾斜的情况下就会造成单个task压力过大，拖累整个job时间，甚至OOM等诸多问题。而如果能在map端完成join，就会极大的减小reduce端的压力，提升并行度。

map端的join适用于在join的表比较小的情况，另外如字典表这种的与其他表join时，因为本身数据就很少，势必会造成数据严重的倾斜，因而这种情况下使用map端的join就再适合不过。在sparksql中，并没有直接提供如map join之类的关键字，但是也不是没有办法，spark提供了broadhashjoin。要注意的是单纯设置broadcastjoin的大小并没有效果，看下面这个例子，这是一张大表和一个字典表的join，可以看到，两张表的处理是一样的，join在reduce端，从实际的运行情况看，也如预料的一样，倾斜严重。

86bb938da16bc05802678889fb20667f251a7c2b

我的项目里使用的是hivecontext，就是spark on hive，因而实现map join的方式就是讲小表进行cache，然后再做查询，看下优化后的执行计划，变成一个stage了，实际的运行时间也提升明显。原来的sql不需要修改，只需要对小表执行 CACHE TABLE xx as select * from xx

69409383972c54a42087ebe35b1eacd31ab80696

文章标签：

SQL

分布式计算

Spark

mvpydq

目录

相关文章

大数据架构师

|

8月前

|

SQL 消息中间件分布式计算

12中方法，彻底搞定数据倾斜！

12中方法，彻底搞定数据倾斜！

大数据架构师

331 0 0

晓之以理的喵~~

|

3月前

|

存储 SQL 分布式计算

性能优化：Spark SQL中的谓词下推和列式存储

性能优化：Spark SQL中的谓词下推和列式存储

晓之以理的喵~~

83 0 0

流烟默

|

4月前

|

SQL 算法关系型数据库

MySQL查询优化之order by 、 group by与分页查询优化

MySQL查询优化之order by 、 group by与分页查询优化

流烟默

55 0 0

osc_06552749

|

9月前

|

分布式计算数据安全/隐私保护 Spark

spark 数据倾斜遇到过吗，如何解决数据倾斜？【重要】

spark 数据倾斜遇到过吗，如何解决数据倾斜？【重要】

osc_06552749

81 0 0

about云

|

SQL 分布式计算算法

Apache Spark 2.2中基于成本的优化器（CBO）

Apache Spark 2.2中基于成本的优化器（CBO）

about云

196 0 0

Apache Spark 2.2中基于成本的优化器（CBO）

蓝帽子小智

|

SQL 算法关系型数据库

MYSQL性能调优06_分页查询优化、JOIN关联查询优化、in和exsits优化、count(*)查询优化（二）

MYSQL性能调优06_分页查询优化、JOIN关联查询优化、in和exsits优化、count(*)查询优化（二）

蓝帽子小智

106 0 0

MYSQL性能调优06_分页查询优化、JOIN关联查询优化、in和exsits优化、count(*)查询优化（二）

蓝帽子小智

|

SQL 存储关系型数据库

MYSQL性能调优06_分页查询优化、JOIN关联查询优化、in和exsits优化、count(*)查询优化（三）

MYSQL性能调优06_分页查询优化、JOIN关联查询优化、in和exsits优化、count(*)查询优化（三）

蓝帽子小智

237 0 1

MYSQL性能调优06_分页查询优化、JOIN关联查询优化、in和exsits优化、count(*)查询优化（三）

蓝帽子小智

|

SQL 关系型数据库 MySQL

MYSQL性能调优06_分页查询优化、JOIN关联查询优化、in和exsits优化、count(*)查询优化（一）

MYSQL性能调优06_分页查询优化、JOIN关联查询优化、in和exsits优化、count(*)查询优化（一）

蓝帽子小智

152 0 0

MYSQL性能调优06_分页查询优化、JOIN关联查询优化、in和exsits优化、count(*)查询优化（一）

德哥,digoal

|

SQL Oracle 关系型数据库

PostgreSQL JOIN limit 优化器成本计算改进 - mergejoin startup cost 优化

标签 PostgreSQL , join , limit , startup cost , cbo , 优化器改进背景 PostgreSQL limit N的成本估算，是通过计算总成本A，以及估算得到的总记录数B得到： (N/B)*A 大概意思就是占比的方法计算对于单表查询...

德哥,digoal

1165 0 0

德哥,digoal

|

关系型数据库测试技术数据库

Greenplum 点查(按PK查询)性能与提升空间

德哥,digoal

4448 0 0

热门文章

最新文章

Mac安装并使用telnet命令操作

OSS回源的几种方式和应用场景

[剑指offer] 孩子们的游戏(圆圈中最后剩下的数)

网络安全系列之二十二 Windows用户账号加固

我理解的一个程序员如何学习前端开发

《社交网站界面设计（原书第2版）》——1.9　为设备之间的空间进行设计

《Microduino实战》——1.2　为什么要开源

.Net函数Math.Round你会用吗？

麻省理工大学新发明：暗黑WiFi透视技术

2014秋C++第19周补充代码哈希法的存储与查找

R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化

R语言近似贝叶斯计算MCMC（ABC-MCMC）轨迹图和边缘图可视化

r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现-4

Sentieon | 每周文献-Multi-omics-第四十一期

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-2

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-1

基于RT-Thread摄像头车牌图像采集系统

R语言极值理论：希尔HILL统计量尾部指数参数估计可视化

【视频】R语言中的分布滞后非线性模型（DLNM）与发病率，死亡率和空气污染示例

sql语句创建数据库

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）