海量数据处理之蓄水池抽样算法

简介: 一、问题由来       这个题目的由来是在《编程珠玑》里遇到的,故记录一下。还可以这么说,”如何从二进制文件中等概率取整数?”或者”在不知道文件总行数的情况下,如何从文件中随机的抽取一行?”这个题目说的有点不清楚实际上是:一个二进制文件中有好多好多整数,你要随机取出一个。

一、问题由来

      这个题目的由来是在《编程珠玑》里遇到的故记录一下。还可以这么说”如何从二进制文件中等概率取整数”或者”在不知道文件总行数的情况下如何从文件中随机的抽取一行?”这个题目说的有点不清楚实际上是一个二进制文件中有好多好多整数你要随机取出一个。

      这个问题的难点就在于你开始不知道有多少的整数也就是说这个1/n你不知道n是多少。   

      综上随机抽样问题表示如下要求从N个元素中随机的抽取k个元素其中N无法确定。

      这种应用的场景一般是数据流的情况下由于数据只能被读取一次而且数据量很大并不能全部保存因此数据量N是无法在抽样开始时确定的但又要保持随机性于是有了这个问题。所以搜索网站有时候会问这样的问题。

      这里的核心问题就是“随机”怎么才能是随机的抽取元素呢我们设想买彩票的时候由于所有彩票的中奖概率都是一样的所以我们才是“随机的”买彩票。那么要使抽取数据也随机必须使每一个数据被抽样出来的概率都一样。

二、算法实现

 

array R[k];    // result
 integer i, j;
 

 for each i in 1 to k do
     R[i] := S[i]
 done;
 
 for each i in k+1 to length(S) do
     j := random(1, i);   // important: inclusive range
     if j <= k then
        R[j] := S[i]
     fi
 done

 

目录
相关文章
|
7月前
|
机器学习/深度学习 传感器 算法
基于类帕累托贯序抽样算法求解单目标优化问题附matlab代码
基于类帕累托贯序抽样算法求解单目标优化问题附matlab代码
|
算法 Java C++
Reservoir Sampling 蓄水池抽样算法,经典抽样
随机读取数据,如何保证真随机是不可能的,因为计算机的随机函数是伪随机的。 但是在不考虑计算机随机函数的情况下,如何保证数据的随机采样呢? 1.系统提供的shuffle函数   C++/Java都提供有shuffle函数,可以对容器内部的数据打乱,保持随机排序。
1400 0
|
1月前
|
机器学习/深度学习 算法 生物认证
基于深度学习的人员指纹身份识别算法matlab仿真
基于深度学习的人员指纹身份识别算法matlab仿真
|
26天前
|
传感器 算法 计算机视觉
基于肤色模型和中值滤波的手部检测算法FPGA实现,包括tb测试文件和MATLAB辅助验证
该内容是关于一个基于肤色模型和中值滤波的手部检测算法的描述,包括算法的运行效果图和所使用的软件版本(matlab2022a, vivado2019.2)。算法分为肤色分割和中值滤波两步,其中肤色模型在YCbCr色彩空间定义,中值滤波用于去除噪声。提供了一段核心程序代码,用于处理图像数据并在FPGA上实现。最终,检测结果输出到&quot;hand.txt&quot;文件。
|
1月前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络的视频手部检测算法matlab仿真
基于yolov2深度学习网络的视频手部检测算法matlab仿真
|
1月前
|
算法
【MATLAB】语音信号识别与处理:移动中位数滤波算法去噪及谱相减算法呈现频谱
【MATLAB】语音信号识别与处理:移动中位数滤波算法去噪及谱相减算法呈现频谱
22 2