开发者社区云计算文章正文

count去重和distinct去重

2017-03-02 7097

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： count去重和distinct去重

有两种去重方法：
1、select count(distinct id) from a;这个是将所有值都放入到内存中，key为列值，通过hash算出有多少个key就是多少行。
2、select count(1) from (select 1 from a group by id ) a，这个是通过group by先将id进行排序，之后只要进行计数就可以了。时间复杂度为nlogn，空间复杂度为1。空间复杂度小。

两种方法优缺点比较：
如果内存够容纳所有行数，第一种优于第二种

当如果内存不够的话，第二种优于第一种。

总结数据量小第一种，数据量大第二种。

绛云

+关注

15文章 1问答

打赏

706

a游苏杭

11月前

JSON JavaScript 前端开发

set 去重

a游苏杭

81 3 3

她说她一如既往的爱我

10月前

索引

去重的方法有那些？

她说她一如既往的爱我

64 1 1

阿甘兄

SQL

解决union查询order by 排序失效的问题

阿甘兄

292 0 0

凉冰Pro

C# distnict去重

凉冰Pro

92 0 0

夏木~

关系型数据库 MySQL 索引

MySQL中去重 distinct 和 group by 是如何去重的

夏木~

191 0 0

开源大数据EMR

SQL 分布式计算 Spark

如何在Spark中实现Count Distinct重聚合

Count Distinct是SQL查询中经常使用的聚合统计方式，用于计算非重复结果的数目。由于需要去除重复结果，Count Distinct的计算通常非常耗时。本文主要介绍在Spark中如何基于重聚合实现交互式响应的COUNT DISTINCT支持。

开源大数据EMR

3522 0 1

xiaohua616

Distinct

SQL 去重

xiaohua616

201 0 0

游客gsgxy6yg6ydlm

SQL 索引

SQL去重是用DISTINCT好，还是GROUP BY好？

游客gsgxy6yg6ydlm

996 0 0

德哥

SQL 关系型数据库 PostgreSQL

distinct xx和count(distinct xx)的变态递归优化方法

今天要说的这个优化是从前面一篇讲解《performance tuning case :use cursor or trigger replace group by and order by》http://blog.163.com/digoal@126/blog/static/16387704020.

德哥

11087 0 1

幸运券发放

程序员 C#

C#黔驴技巧之去重（Distinct）

幸运券发放

917 0 0

count去重和distinct去重

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

count去重和distinct去重

热门文章

最新文章

相关电子书