TB级大表秒级任意维度分析 - 采样估值满足高效TOP N等分析需求

  1. 云栖社区>
  2. 阿里云数据库ApsaraDB>
  3. 博客>
  4. 正文

TB级大表秒级任意维度分析 - 采样估值满足高效TOP N等分析需求

德哥 2017-09-11 16:45:12 浏览3762
展开阅读全文

标签

PostgreSQL , 采样 , sample , TOP N , 统计分析


背景

估值计算是统计学的常用手段。因为数据量庞大,求精确数值需要耗费巨大的资源,而统计分析并不要求完全精确的数据,因此估值计算是一种折中的方法,广泛应用于统计分析场景。

PostgreSQL是一个功能强大的数据库,在估值统计方面,提供了很多方法。

1、PostgreSQL中,求估计的UV,增量UV等(即count distinct),可以通过HLL插件来实现。

《Greenplum 最佳实践 - 估值插件hll的使用(以及hll分式聚合函数优化)》

《PostgreSQL hll (HyperLogLog) extension for "State of The Art Cardinality Estimation Algorithm" - 3》

《Postgr

网友评论

登录后评论
0/500
评论
德哥
+ 关注
所属云栖号: 阿里云数据库ApsaraDB