阿里云大数据利器Maxcompute学习之--窗口函数实现分组TopN-阿里云开发者社区

阿里云大数据利器Maxcompute学习之--窗口函数实现分组TopN

2017-06-27 6863

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 看到很多用户经常会问如何对分组内进行排序。官方文档：https://help.aliyun.com/document_detail/34994.html?spm=5176.doc27891.6.611.

看到很多用户经常会问如何对分组内进行排序。
官方文档：https://help.aliyun.com/document_detail/34994.html?spm=5176.doc27891.6.611.Q1bk3j
例如需求：

odps 里面能否做排名操作，比如一个表里面有用户ID 和金额两个字段，用金额大小排序的话，我如何计算用户的排名（金额最大的是第一名，以此类推）
计算每个金融产品的最大投资者，或者前几名

类似这一类的需求，我们总结为实现分组内的排序，取TopN，那么在hive中有两个个函数可以分开实现
first_value: 取分组内排序后，截止到当前行，第一个值，
row_number()：实现组内排序，并对组内行进行标记行号。
那在odps中没有first_value这个函数，但是同样可以实现top1的需求。下面用一个大家最爱的公司员工表来举例实现

员工表：

empno	ename	job	mgr	hiredate	sal	comm	deptno
7839	KING	PRESIDENT	NULL	1981-11-17 00:00:00	5000.0	NULL	10
7566	JONES	MANAGER	7839	1981-04-02 00:00:00	2975.0	NULL	20
7698	BLAKE	MANAGER	7839	1981-05-01 00:00:00	2850.0	NULL	30
7788	SCOTT	ANALYST	7566	1987-07-13 01:00:00	3000.0	NULL	20
7782	CLARK	MANAGER	7839	1981-06-09 00:00:00	2450.0	NULL	10
7369	SMITH	CLERK	7902	1980-12-17 00:00:00	800.0	NULL	20
7902	FORD	ANALYST	7566	1981-12-03 00:00:00	3000.0	NULL	20
7876	ADAMS	CLERK	7788	1987-07-13 01:00:00	1100.0	NULL	20
7900	JAMES	CLERK	7698	1981-12-03 00:00:00	950.0	NULL	30
7934	MILLER	CLERK	7782	1982-01-23 00:00:00	1300.0	NULL	10
7499	ALLEN	SALESMAN	7698	1981-02-20 00:00:00	1600.0	300.0	30
7654	MARTIN	SALESMAN	7698	1981-09-28 00:00:00	1250.0	1400.0	30
7844	TURNER	SALESMAN	7698	1981-09-08 00:00:00	1500.0	0.0	30
7521	WARD	SALESMAN	7698	1981-02-22 00:00:00	1250.0	500.0	30

使用row_number()对相同 job 的薪水sal 进行

排序，取组内最大，等不及了，直接上sql

select * from (
    select job,sal,
     row_number() over(partition by job order by sal desc) as rn  from emp
 ) a where rn=1;
／／partition by 跟分组字段
／／order by 跟排序字段+升降关键字 默认升序排列。

结果：

job	sal	rn
ANALYST	3000.0	1
CLERK	1300.0	1
MANAGER	2975.0	1
PRESIDENT	5000.0	1
SALESMAN	1600.0	1

同理如果想实现topN，那把rn=1改成rn

select * from (

select job,ename,sal,
 row_number() over(partition by job order by sal desc) as rn  from emp

) a where rn<3;

结果：

job	ename	sal	rn
ANALYST	SCOTT	3000.0	1
ANALYST	FORD	3000.0	2
CLERK	MILLER	1300.0	1
CLERK	ADAMS	1100.0	2
MANAGER	JONES	2975.0	1
MANAGER	BLAKE	2850.0	2
PRESIDENT	KING	5000.0	1
SALESMAN	ALLEN	1600.0	1
SALESMAN	TURNER	1500.0	2

那这是一个简单的例子。
对于类似需求可以用这个方法来实现TopN的计算。
注意：这种方法对于数量级不是很大的或者分组比较均匀的大数据量实用，
如果分组键值不均匀，导致单个或者几个键值比较大，那会有数据倾斜的问题。此时我们可以从sql上优化写法，例如可以排查哪几个键值比较大单独拉出来一个任务执行。

有对大数据技术感兴趣的，可以加笔者的微信 wx4085116.目前笔者已经从阿里离职，博客不代表阿里立场。笔者开了一个大数据培训班。有兴趣的加我。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

阿里云大数据利器Maxcompute学习之--窗口函数实现分组TopN

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景