备案控制台

开发者社区

开发者社区> 问答> 正文

请教ODPS上多张表join的性能优化问题

目前共有五张表，数据量约600G，要做join，没有where条件。我目前做法如下：
create table if not exists tmp1
(
id string,
........
)patition(part_by_hash string)

insert overwrite table tmp1 partition(part_by_hash)
select
id,
...,
hash(id)%1000
from AAA

如上所示，就是先创建5张这样的临时表，将数据按照共同主键的哈希值取模分配到1000个分区里，确保同5张表中相同主键的记录会分配到同一编号的分区里，这样就能先分别对各分区进行join，然后合并起来就是需要的结果。但是我对于这种情况下join语句的写法不太去确定：
select * from tmp1
join tmp2 on tmp1.id=tmp2.id
join tmp3 on tmp1.id=tmp3.id
join tmp4 on tmp1.id=tmp4.id
join tmp5 on tmp1.id=tmp5.id

我是这样写的，效果一般但好歹能跑起来了。但是我觉得应该不会这么简单，但是手头资料有限，对ODPS的原理也不是很了解，请各位大神赐教

展开

收起

剑鱼闯天涯 2017-05-18 23:53:53 8032 0

2 条回答

写回答

取消提交回答

努力增长

1.如果某些join的关联key相同，需按顺序放在一起，提高效率 2. 分析join是否有倾斜，有的话考虑切分热点数据，最后进行union all合并 3. 还可以看看时间是否可切分，不做全表关联，增量关联近xx天数据，补历史数据的情况下，每次运行只刷新近xx天数据

2021-03-31 19:19:35

赞同展开评论打赏
听然102382

五张表都是大数据表的话，以上语法没有问题；
如果有小表可以考虑mapjoin提高效率；
在join过程中如果有长尾数据，请排查下原因解决即可，看下是空值还是有热点key。

2019-07-17 21:11:32

赞同展开评论打赏

问答分类：

分布式计算 MaxCompute 云原生大数据计算服务 MaxCompute

问答标签：

大数据开发治理平台 DataWorks表云原生大数据计算服务 MaxCompute表云原生大数据计算服务 MaxCompute张表大数据开发治理平台 DataWorks性能优化

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

大数据计算MaxCompute可以只同步某张表不？

15

1

0

大数据计算MaxCompute那个补录数据实例的，运行日志，哪张表可以查呀?

43

3

0

大数据计算MaxCompute一段sql我直接select 能查出结果，但是写到某张表中会报错误？

40

4

0

DataWorks生产环境里有这张表，但是datastudio里选择从引擎关联表都找不到？

43

1

0

大数据计算MaxCompute里面的资源是一张表，我能直接查询添加的这张表吗？

24

1

0

DataWorks这个报错麻烦看一下，不知道什么情况，都没有用到这张表？

97

3

0

DataWorks比如我从A到B 总共要同步50张表，怎么快速处理来着？

5

1

0

dataworks数据访问控制里申请了某张表，表的负责人会收到消息推送或邮件推送作为提醒作用吗？

36

5

0

dataworks为什么这里提示我持续导入一致，我看这张表的分区数据也不一致啊？

29

2

0

请问DataWorks数据集成支持一次同步多张表吗，，比如 xxx_01, xxx_02 ？

32

1

0

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699474

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818142

3 据说在家办公的程序员是这样写代码的？ 1792058

4 阿里云开放端口权限 689758

5 《阿里云服务器从入门到精通》—论坛精华帖汇总（2013.8.21更新） 599334

6 如何升级配置 536006

7 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522271

8 【精品问答】python技术1000问(1) 513926

9 Flink Forward Asia 2021 有奖问答 512751

10 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456878

11 工信部官网：www.miitbeian.gov.cn打不开解决办法 399436

12 OceanBase 使用动画（持续更新） 359214

13 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329673

14 OSS存储服务-客户端工具 321201

15 为体验实验室取一个新名字。 307140

16 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303615

17 Win Server 2003-2016 加密勒索事件必打补丁合集 295082

18 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283408

19 安全组详解，新手必看教程 277219

20 写code还是做管理，开发者如何进行职业规划？ 268189

1 作为一个经典架构模式，事件驱动在云时代为什么会再次流行呢？ 105

2 如何看待首个 AI 编程助手入职科技公司？ 990

3 未启用对服务器的访问 434

4 在图像处理应用场景下，Serverless架构的优势体现在哪些方面？ 1116

5 如何处理线程死循环？ 1135

6 如何写出更优雅的并行程序？ 1258

7 你认为一个优秀的技术PM应该具备什么样的能力？ 1641

8 宜搭页面复制问题 287

9 钉钉宜搭中要如何实现每日定时自动获取表单1中符合条件的实例数量总和，并赋值给表单2中的某个组件 267

10 宜搭官方的视频板块，图片上是怎么加文字样式的。 127

11 宜搭官方的这种页面是怎么实现的。 181

12 idea 2018版本怎么搜索不到lingma插件 106

13 加载ModelScope模型以后，为什么调用，model.chat()会提示错误？ 125

14 ModelScope qwen7b、14b、72b lora微调分别需要的显存和cpu内存是多少？ 189

15 你的数据存储首选网盘还是NAS？ 2894

16 通义千问升级后免费开放 1000 万字长文档处理功能，将会带来哪些利好？你最期待哪些功能？ 2287

17 宜搭自定义页面可以实现这种页面嘛 263

18 一直提示抱歉，请求超时，请重试。 132

19 宜搭自定义页面上传的图片如何保存到表单页面中？ 242

20 通义灵码活动，无法打开盲盒~ 131

相关课程

更多

大数据知识图谱—钱大妈数据中台建设最佳实践

141

1

去学习

大数据知识图谱—数据中台的智能进化—阿里巴巴十二年数据平台发展历程

97

1

去学习

大数据知识图谱—一文读懂云原生一体化数仓

91

1

去学习

一站式大数据开发治理平台DataWorks初级课程

399

11

去学习

DataWorks 使用教程

1112

9

去学习

DataWorks一站式大数据开发治理平台精品课程

7394

35

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

被窝里的运维——DataWorks移动版公测-2020飞天大数据平台实战应用第一季 立即下载

DataWorks数据集成实时同步最佳实践（含内测邀请）-2020飞天大数据平台实战应用第一季 立即下载

基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

相关实验场景

更多