《大数据算法》一3.4 估算不同元素的数量

简介: 本节书摘来华章计算机《大数据算法》一书中的第3章 ,第3.3节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.4 估算不同元素的数量 顾名思义,估算不同元素的数量就是看数据流中出现了多少不同的元素。

本节书摘来华章计算机《大数据算法》一书中的第3章 ,第3.3节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4 估算不同元素的数量

顾名思义,估算不同元素的数量就是看数据流中出现了多少不同的元素。
数据流中不同元素数量统计问题
输入:数据流image,隐式地定义了一个频率向量f=(f1,…,fn),image中j出现的次数输出:image,即出现在σ中不同元素的数量。
估算数据流中不同元素的个数可以用于统计访问某个网站的所有用户个数或者统计某个页面的访问ip数等。由于这些访问量十分巨大,不可能在内存中完全保存所有访问信息,因而需要合理的亚线性算法。
如果这个问题被限定为确定性算法(比如δ=0)或精确算法(比如ε=0),那么可以证明,这个问题是不可能在亚线性空间内求解的。因此,我们要寻找一个随机化的近似算法,即输出d的(ε,δ)近似。
3.4.1 基本算法
1.算法描述
对于一个整数p>0,令image
表示p的二进制表示中末尾0的个数,即image该算法的核心思想是,数据流当前不同的元素个数越多,对应不同哈希值的个数就越多,从而其中出现某一个元素对应哈希值末尾0的个数多的概率就越大。具体地,对于d个不同的数来说,我们可以期望其中某一个数j满足image。于是,我们在数据流中维护的image的最大值(也就是z)给出了一个logd的估计。
我们设计了如下非常简单的算法。算法3-3 数据流中元素数量估计基本算法

初始化:
1 从2-通用哈希函数族中随机选择哈希函数h:[n]→[n];
2 z←0;
处理j:
3 if zeros(h(j))>z then z←zeros(h(j));
输出:2z+1/2。

针对该算法,对数据流<1,3,3,5,2,2,1,4,4,6,6>的数据流片段给出具体计算示例,如图3-1所示。使用哈希函数h(x)=x mod 23,计算过程如下:
1) 对数据流中第一个数据1,计算h(1)=1,其二进制数为001,zeros(h(x))=0;
2) 对数据流中第二个数据3,计算h(3)=3,其二进制数为011,zeros(h(x))=0;
3) 对数据流中第三个数据3,计算h(3)=3,其二进制数为011,zeros(h(x))=0;
4) 对数据流中第四个数据5,计算h(5)=5,其二进制数为101,zeros(h(x))=0,同时更新z的最大值为2;
5) 对数据流中第五个数据2,计算h(2)=2,其二进制数为010,zeros(h(x))=1。
直到数据流处理完当前数据得到最大的z=2,作为统计不同元素估计的参数,即最终估计值为2z+1/2≈6。

image


补充知识:通用哈希函数族
对于任意哈希函数,都可以人为构造一些特殊的输入,使得哈希冲突非常高,从而让哈希表的性能大大降低。为了抵御这种攻击,我们可以实现大量哈希函数,然后

在构造哈希表的时候从中任选一个。由于数据输入者并不知道挑选的是哪一个哈希函数(算法设计者其实也不知道),这样做就达到了避免刻意攻击的目的。这是一种舍伍德算法,即用随机化方法提高算法在最坏情况下的性能,类似用随机化方法来优化快速排序(参见参考文献[12]的7.3节)。下面简单介绍通用哈希函数族,对其细节感兴趣的读者可以阅读参考文献[12]的11.5节和参考文献[13]的第13章。
设集合U是一个全域,U≥n,令集合V={0,1,2,3,…,n-1},H是一个从U到V的哈希函数集合。如果H满足对于任意的元素x1,x2,x3,…,xk以及从H中均匀随机选取的一个哈希函数h,image的概率小于1/nk-1,那么将H称为k-通用哈希函数族。
所以,如果哈希函数h是从2-通用哈希函数族中选取的,那么对于任何两个元素x、y,它们的哈希值满足h(x)=h(y)的概率最多为1/n。
下面给出一个2-通用函数族的例子:
image

其中p是质数,image

2.算法质量分析
定理3-3 算法3-3输出数据流中不同元素数目的估计为d,数据流中真实不同元素数目为d,则image
证明 形式上,对于j∈[n]和整数r≥0,令Xr,j作为事件zeros(h(j))≥r的指示随机变量,并令image当算法处理完该流时将z的值记作t。如果Yr>0,则表明image(3-1)我们可以将上面的公式重新表示为下面的形式:image(3-2)由于h(j)为(log n)比特字符串上的均匀分布,所以可以得到image现在我们对Yr的期望和方差做如下估算。式(3-3)的第一步使用随机变量Yr的两两独立性,因为h是由2-通用哈希函数族产生的。E[Yimage(3-3)这样,分别使用马尔可夫不等式和切比雪夫不等式,得到image
image于是,d=2t+12,令a是满足2a+12≥3d的最小整数,利用式(3-1)和式(3-4)得到image同样,令b取得最大的整数,这样有2b+12≤d/3,利用式(3-2)和式(3-5)得到image以上证明在以下两方面稍显薄弱。首先,评估d只能和d在同一数量级,并且不是任意好的近似值。其次,算法失效的概率的上界相当大(2/3≈47%)。当然,我们可以通过用更大的常量替代常量“3”来减小这个概率。但更好的方法是用一个不断生成的标准——“中位数技巧”,这个方法不会进一步降低评估d的质量。
补充知识:马尔科夫不等式和切比雪夫不等式
马尔科夫不等式和切比雪夫不等式是概率分析中常用的概率不等式。
马尔科夫不等式:设X为只取非负值的随机变量,则对任意实数t>0有
image
切比雪夫不等式:设X为随机变量,具有有限均值μ和方差σ2,则对任意实数t>0有
image

3.中位数技巧
想象一下,如果并行运行k个该算法的副本,在这些副本中使用互不依赖的随机哈希函数,并且输出k个答案的中位数作为最终结果。如果这个中位数超过3d,那么至少有k/2个答案超过3d,反之,我们仅仅希望k2/3个答案超过3d。通过标准的切尔诺夫界,这个事件的概率是2-Ω(k)。同样,中位数小于d/3的概率也是2-Ω(k)。
选择k=θ(log(1/δ)),我们可以使这两个概率的和最多为δ。这就得到一个(O(1),δ)近似算法。下一节给出一个不同的算法,可得到一个(ε,δ)近似算法。
原来的算法需要O(logn)位空间存储一个哈希函数,并需要多于O(log logn)位的空间以存储z。因此,最终的算法需要的空间为O(log(1/δ)×logn)。当用一个新的算法解决这个问题时,将改善这个空间的界限。
3.4.2 改进算法
针对上述问题,本节给出一个更好的算法。这个算法称为BJKST算法,BJKST是以Bar-Yossef、Jayram、Kumar、Sivakumar和Trevisan五个作者的名字命名的。介绍这个算法的原论文给出了三个算法,我们将要介绍第三个算法(在某种意义上是“最好的”)。下面的函数zeros与3.4.1节中的含义相同。常量的值稍后基于算法分析中的需要确定。算法3-4 数据流中元素数量估计改进算法

初始化:
1 从2-通用函数族中随机选择哈希函数h:\[n\]→\[n\];
2 从2-通用函数族中随机选择哈希函数g:\[n\]→\[bε-4log2n\];
3 z←0;
4 B←;
处理j:
5if zeros(h(j))>z then
6 B←B ∪{ g(j), zeros(h(j))};
7 while B>=c/ε2 do
8   z←z+1
9   从B中移除所有满足β<z的(α,β);
输出:B2z。

直观地说,这个算法是3.4.1节的算法3-3的改良版。这次,我们不是简单地计算在数据流中zeros(h(j))的最大值,而是要尝试确定由所有满足zeros(h(j))≥z的元素j组成的存储桶B的大小。如果在数据流中包含d个不同元素,我们可以期望d/2z落入桶中。因此B2z应该是对d的很好的估计。
我们的目的是节省空间,因而希望B小一些,这样就能存储足够的信息来精确地追踪B值。同时,我们又希望B足够大,这样我们生成的估计值就足够精确。我们可以证明让B增大到大约O(1/ε2)是个不错的选择。最后,为了节约空间,这个算法没有存储B中实际的数字,而是存储基于g的哈希值和zeros(h(j))的值,当B必须缩小时,这两个值用来删除B中相应的元素。
使用改进算法对数据流<1,3,3,5,2,2,1,4,4,6,6>的数据流片段给出具体示例,如图3-2所示。使用与上文相同的哈希函数h(x)=x mod 23进行完全哈希,结果如图中的统计表所示。
1) 如果不压缩,即保留所有B,B=6,得到完全精确的值6。
2) 如果设定相关的参数ε,使得z=1,即需要删除所有哈希值为1的桶,保留下的B=3,使用公式B2z计算得到的不相同元素数为6。
3) 如果设定参数使得z=2,则得到B=1,使用公式B2z得到最终估计值为4。
所以我们需要平衡B的空间和估计的准确度。
下面我们详细地分析算法,在这里,我们假设1/ε2=O(m),否则这个算法就没有任何意义。

image


定理3-4 算法3-4的空间复杂度是image
证明 这个算法必须存储h、g、z和B,其中h和B是主要空间需求,根据有限域哈希函数族中哈希函数的性质,h需要image位的存储空间。存储桶B的规模限制在image每个数据桶中的元组(α,β)需要image位来存储哈希值α,这个哈希值大于存储数量β所需的存储空间log logn位。综上所述,算法3-4的空间复杂度是image
算法质量分析
整个分析假设在B中存储的是(在g下的)哈希值,而不是元素本身,更没有改变B。不论g在其应用到元素集合时是否发生冲突都是如此。通过选择足够大的常量B,并针对每一个选择的哈希函数h,我们保证估计误差过大的可能性最多为1/6。因此,使用这个假设增加了最多1/6的错误可能性。我们现在在不发生冲突的情况下分析余下的误差。
定理3-5 令d表示算法3-4输出的估计值,d表示数据流中实际的不同元素数量,则image
证明 该证明的基本条件与3.4.1节一致。对于每个image和整数r≥0,对于image,令image作为一个指示随机变量,并且令image当算法完成数据流的处理后用t表示z的值,然后得到Yt=B当算法结束时d=Yt2t与3.4.1节中的证明过程一致,得到image注意到如果t=0,那么算法没有增加z,这就意味着d另外一种情况下,t≥1,如果image不等于d,那么我们认为这是个失败的结果。image通过对所有可能的t的r值求和image我们能估出这个事件的概率。对于小的r,当t=r时错误不会出现,因为错误需要Yt很大的偏差。对于大数值的r,仅仅有t=r是不可能的。下面是将总和分成两部分的一个直观体现,我们需要选择阈值,便于将r的“小”值和“大”值区分开,做法如下。
令s等于一个固定的整数,得到image
现在我们用切比雪夫不等式和马尔可夫不等式来约束式(3-8)中的第一项,然后我们用式(3-6)计算得到image
(根据式(3-7))其中最后一步的界限通过选择一个足够大的常数c(≥2×24×12)来实现。█
记得我们的初始条件中有一个针对g的没有冲突的假设,则最后错误的可能性最大为1/6+1/6=1/3。因此,上面的算法(ε,1/3)近似为d。与3.4.1节一样,通过使用中位数技巧,我们将算法改为对于任意0<δ≤1/3,有算法(ε,δ)近似为d,其空间复杂度增加了O(log(1/δ))。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
1月前
|
算法 Java
[Java·算法·简单] LeetCode 27. 移除元素 详细解读
[Java·算法·简单] LeetCode 27. 移除元素 详细解读
23 1
|
3月前
|
设计模式 算法 Java
【数据结构和算法】删掉一个元素以后全为 1 的最长子数组
这是力扣的 1493 题,难度为中等,解题方案有很多种,本文讲解我认为最奇妙的一种。又又又是一道滑动窗口的典型例题,可以帮助我们巩固滑动窗口算法。这道题很活灵活现,需要加深对题意的变相理解。给你一个二进制数组nums,你需要从中删掉一个元素。 请你在删掉元素的结果数组中,返回最长的且只包含 1 的非空子数组的长度。 如果不存在这样的子数组,请返回 0 。
64 1
|
4月前
|
算法
顺序表应用4:元素位置互换之逆置算法
顺序表应用4:元素位置互换之逆置算法
|
5天前
|
算法
代码随想录算法训练营第五十七天 | LeetCode 739. 每日温度、496. 下一个更大元素 I
代码随想录算法训练营第五十七天 | LeetCode 739. 每日温度、496. 下一个更大元素 I
11 3
|
14天前
|
算法 测试技术 Serverless
【二分查找】【C++算法】378. 有序矩阵中第 K 小的元素
【二分查找】【C++算法】378. 有序矩阵中第 K 小的元素
|
1月前
|
算法
常见算法题——203.移除链表元素
【2月更文挑战第9天】
24 0
|
2月前
|
搜索推荐 算法
在冒泡排序算法中,为什么每次比较相邻的元素时都要进行交换?
【2月更文挑战第8天】【2月更文挑战第21篇】在冒泡排序算法中,为什么每次比较相邻的元素时都要进行交换?
|
2月前
|
算法
|
3月前
|
搜索推荐 算法 测试技术
【排序算法】【二叉树】【滑动窗口】LeetCode220: 存在重复元素 III
【排序算法】【二叉树】【滑动窗口】LeetCode220: 存在重复元素 III
|
3月前
|
存储 算法
算法题解-二叉搜索树中第K小的元素
算法题解-二叉搜索树中第K小的元素

热门文章

最新文章