【译】Spark-Alchemy:HyperLogLog的使用介绍

  1. 云栖社区>
  2. Apache Spark中国技术社区>
  3. 博客>
  4. 正文

【译】Spark-Alchemy:HyperLogLog的使用介绍

开源大数据EMR 2019-07-01 10:46:03 浏览743
展开阅读全文

原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html]

译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

预先聚合是一种常用高性能分析的手段,通过该方法处理数据的规模可以下降1000倍, 例如网站访问记录可以产生100亿条记录,通过预先聚合可以减少到1000万条记录, 因此数据的处理成本以及处理时间都会相应的减少,此外用户还可以通过更高层次的聚合达到进一步的提升,例如在时间维度上按天进行聚合, 或者按照网站维度上进行聚合而非按照URL来进行聚合。

本篇文章主要介绍开源库spark-alchemy中的HyperLogLog功能 以及他是如何解决数据聚合过程中遇到挑战

网友评论

登录后评论
0/500
评论
开源大数据EMR
+ 关注
所属云栖号: Apache Spark中国技术社区