大数据计数原理1+0=1这你都不会算(一)-阿里云开发者社区

大数据计数原理1+0=1这你都不会算(一)

2017-11-01 1465

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 2017年架构师最重要的48个小时 | 8折倒计时 hello哈，大家是不是好久没见到我啦?我也是一直在摸索小伙伴们喜欢看到什么东西，不喜欢看什么东西，还请大家多多支持。为了表示感谢。小蕉在这给你们一鞠躬，二鞠躬，三。

2017年架构师最重要的48个小时 | 8折倒计时

hello哈，大家是不是好久没见到我啦?我也是一直在摸索小伙伴们喜欢看到什么东西，不喜欢看什么东西，还请大家多多支持。为了表示感谢。小蕉在这给你们一鞠躬，二鞠躬，三。事不过三~

1+0=1你都不会谈什么大数据?

这篇呢，又是开坑之作，这是一个系列，主要会将大数据下的计数原理。说到计数，不知道大家会第一印象想到什么，我估计会是。。数手指。。没错，小蕉从小学开始就开始数手指，所有20以内的加减法很早就掌握了。研表究明，这估计也是我们现在使用十进制的原因，如果我们每个人每只手都有6只手指，那我们可能就用十二进制了。

好了不扯了，那用程序怎么计数呢?要去重那种。按照我拍脑袋设想呢，第一印象，嗯用HastSet准没错，但是HashSet占用的内存有多少你们知道吗?可以装下我一年的米饭。内存占用太大，所以就有了后面的B-tree，Bitmap，Bloom Filter，Linear Counting，LogLog Counting，Adaptive Counting，HyperLogLog Counting，HyperLogLog++ Counting。

如果现在你们一个都听不懂的话，那就对了，但那也木有关系，我会一个一个跟你们讲清楚哒。(如果我不断更的话，嗯)

那第一篇就开始讲HashSet是怎么进行计数的吧。首先我们看一下HashSet的底层结构是什么。

from HashSet
private transient HashMap<E,Object> map;
public HashSet() {
map = new HashMap<E,Object>();
}

唔，咩你甘噶。想不到你是这样的HashSet，底层居然是一个私有的无法序列化的HashMap，黑人问号脸。计数嘛，我们就会想知道，集合中有没有存在过这个数字，那HashSet是怎么知道它自己的集合中有没有存在某个值的呢?

from HashSet
public boolean contains(Object o) {
return map.containsKey(o);
}

oh，原来是直接调用了HashMap的containsKey这个方法，那HashMap又是怎么找的呢?

from HashMap
final Entry<K,V> getEntry(Object key) {
int hash = (key == null) ? 0 : hash(key.hashCode());
for (Entry<K,V> e = table[indexFor(hash, table.length)];
e != null;
e = e.next) {
Object k;
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
}
return null;
}

看不懂也没关系我讲给你听。首先算一下key的hash值，然后在自己的HashEntry的数组里面(其实就是一个元素都是链表的数组，哎呀好拗口)，找到对应的HashEntry，找到之后呢，再根据链表一个一个找，如果发现key的hash值，引用，或者equals完全相等，嗯没错，那这个key就已经存在在HashSet中啦。这时候计数就不用+1了。

那如果一个值不存在呢?那就计数+1，顺便把自己放到集合里边嘛~怎么放呢?程序员有一句黑话叫，"don't bb，show me the code"。

from HashSet
private static final Object PRESENT = new Object();
public boolean add(E e) {
return map.put(e, PRESENT)==null;
}

由此可见，也只是调用了HashMap的put方法，还特么把一个叫PRESENT的不知道什么鬼的静态的私有的无法修改的Object当成value值了。oh好像这样也可以理解，我们只是需要借助HashMap的key就知道重不重复了。至于HashMap是怎么put一个值得呢?

from HashMap
public V put(K key, V value) {
if (key == null)
return putForNullKey(value);
int hash = hash(key.hashCode());
int i = indexFor(hash, table.length);
for (Entry<K,V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
addEntry(hash, key, value, i);
return null;
}

好这一堆基本都不用看，就看那个addEntry就够了，上面一大坨大概的意思就是，如果key已经存在了，那就覆盖原有的value值，然后就啥也不干，这不是我们本次的重点(modCount跟线程安全有关感兴趣同学自省度娘)。

from HashMap
void addEntry(int hash, K key, V value, int bucketIndex) {
Entry<K,V> e = table[bucketIndex];
table[bucketIndex] = new Entry<K,V>(hash, key, value, e);
if (size++ >= threshold)
resize(2 * table.length);
}

这一小段大概的意思呢，就是，把原来HashEntry的数组对应hash位置的值拿出来，然后把现在的值接到最前面去。然后非常关键的代码出现了。

size++

哇哇哇，size++，嗯，计数靠谱了，可以计数了。

from HashSet
public int size() {
return map.size();
}
from HashMap
public int size() {
return size;
}

嗯我们可以看到，就是直接把size返回了。

到这里我们已经说完了HashSet的计数原理啦。那么如果有N个值，这个HashSet需要多少空间呢?假设整个HashMap都放满了。

至少需要N*8+PRESENT，还要加上HashEntry的开销，只能说是吃内存大户。

本文作者：大蕉

来源：51CTO

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

大数据计数原理1+0=1这你都不会算(一)

2017年架构师最重要的48个小时 | 8折倒计时

热门文章

最新文章

相关课程

相关电子书

相关实验场景