【Spark Summit East 2017】Spark中的草图数据和T-Digest

简介: 本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。


669279f0a2335fb5481183f7c6d017b3edfc84bd

ed52ee26ad21a517f97a4c2c47afbdf03559d3d6

536d5110ae6ebee8cb19c73da6431703b0ffa91d

4e12ae2bf5c747d937f3344ba901e8fd812ca402

5e1e5a371f33d853e84c1d4ca26fc8842e737766

ac2891a2a04dabc69b1c9d67fa37eabd5ab9cb3b

3cbe10ea69aab5924b740d69cb72b00dc340bcc4

a52fee6cfa199ba86ccab51f0f57ffccc8bd930d

dfc0332d7dd067edb1988685812f92b154599084

fa2c579203d9166c03ec5ea3a7a3455b9900a568

70e8cf3c13cdcebac87a4ee647e5cc4aaa5ebaf4

ded69b5a1a874f763b5e8ca609f5b03cb29b7de3

47635c4d7c117477a6fc817b5a044a7429ae88d0

80c38d841c460a50a6a428a61115fb37997d4d95

07cb4f8f4bc361296ba59059700735e8055dd23d

178a19eae5aa860e5d9b903e5a685ecc870efd52

e84b8e32b2fe85bf0f16419383b156c3cec21ca6

bc80559c7deb0a9ae531bed3c338f60616832e5f

044bc66b2f777f52adf6b05b23bece66294915e2

6a8ac030de682c9b523857fc56e1426fc9f22690

105ece2f9556f6d209ae8ff2b0da6f7d120dce4f

9473c83c046bd9ecbbdeca5a0ba2f21dd00b080f

621001a54e0bb557c043465be51079ebeffe591d

b36fd4fff192875c757992bad53cd9c74e3fcffc

046e0201934593d9baee1831487726406f8c6a33

c3184bddda49d86c693434bcd212058867d451e1

相关文章
|
2月前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
57 2
|
1月前
|
SQL 分布式计算 Java
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
106 1
|
1月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
107 2
|
3月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问
|
3月前
|
JSON 分布式计算 关系型数据库
Spark中使用DataFrame进行数据转换和操作
Spark中使用DataFrame进行数据转换和操作
|
3月前
|
存储 分布式计算 调度
Spark任务调度与数据本地性
Spark任务调度与数据本地性
|
4月前
|
分布式计算 Java Spark
Spark Driver和Executor数据传递使用问题
Spark Driver和Executor数据传递使用问题
31 0
|
分布式计算 Java Spark
|
分布式计算 Java Spark
Spark Streaming 数据清理机制
大家刚开始用Spark Streaming时,心里肯定嘀咕,对于一个7*24小时运行的数据,cache住的RDD,broadcast 系统会帮忙自己清理掉么?还是说必须自己做清理?如果系统帮忙清理的话,机制是啥?
2954 0
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
159 0