备案控制台

开发者社区

开发者社区大数据文章正文

【Spark Summit East 2017】Spark中的草图数据和T-Digest

2017-02-20 3313

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲，大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块，草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地，T-Digest是一个通用的的草图的数据结构，并且非常适合于map-reduce模式，演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲，大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块，草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地，T-Digest是一个通用的的草图的数据结构，并且非常适合于map-reduce模式，演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。

669279f0a2335fb5481183f7c6d017b3edfc84bd

ed52ee26ad21a517f97a4c2c47afbdf03559d3d6

536d5110ae6ebee8cb19c73da6431703b0ffa91d

4e12ae2bf5c747d937f3344ba901e8fd812ca402

5e1e5a371f33d853e84c1d4ca26fc8842e737766

ac2891a2a04dabc69b1c9d67fa37eabd5ab9cb3b

3cbe10ea69aab5924b740d69cb72b00dc340bcc4

a52fee6cfa199ba86ccab51f0f57ffccc8bd930d

dfc0332d7dd067edb1988685812f92b154599084

fa2c579203d9166c03ec5ea3a7a3455b9900a568

70e8cf3c13cdcebac87a4ee647e5cc4aaa5ebaf4

ded69b5a1a874f763b5e8ca609f5b03cb29b7de3

47635c4d7c117477a6fc817b5a044a7429ae88d0

80c38d841c460a50a6a428a61115fb37997d4d95

07cb4f8f4bc361296ba59059700735e8055dd23d

178a19eae5aa860e5d9b903e5a685ecc870efd52

e84b8e32b2fe85bf0f16419383b156c3cec21ca6

bc80559c7deb0a9ae531bed3c338f60616832e5f

044bc66b2f777f52adf6b05b23bece66294915e2

6a8ac030de682c9b523857fc56e1426fc9f22690

105ece2f9556f6d209ae8ff2b0da6f7d120dce4f

9473c83c046bd9ecbbdeca5a0ba2f21dd00b080f

621001a54e0bb557c043465be51079ebeffe591d

b36fd4fff192875c757992bad53cd9c74e3fcffc

046e0201934593d9baee1831487726406f8c6a33

c3184bddda49d86c693434bcd212058867d451e1

文章标签：

算法

大数据

分布式计算

Spark

数据可视化

Scala

MaxCompute

关键词：

apache spark数据

apache spark summit

apache spark summit east

apache spark east

apache spark east数据

小猫吃鱼569

目录

相关文章

建模sister

|

2月前

|

SQL 分布式计算 API

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

建模sister

57 2 2

建模sister

|

1月前

|

SQL 分布式计算 Java

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

建模sister

106 1 1

sunrr

|

1月前

|

存储分布式计算 API

adb spark的lakehouse api访问内表数据，还支持算子下推吗

【2月更文挑战第21天】adb spark的lakehouse api访问内表数据，还支持算子下推吗

sunrr

107 2 2

晓之以理的喵~~

|

3月前

|

分布式计算分布式数据库 API

Spark与HBase的集成与数据访问

Spark与HBase的集成与数据访问

晓之以理的喵~~

72 0 0

晓之以理的喵~~

|

3月前

|

JSON 分布式计算关系型数据库

Spark中使用DataFrame进行数据转换和操作

Spark中使用DataFrame进行数据转换和操作

晓之以理的喵~~

115 0 0

晓之以理的喵~~

|

3月前

|

存储分布式计算调度

Spark任务调度与数据本地性

Spark任务调度与数据本地性

晓之以理的喵~~

31 0 0

诸葛子房

|

4月前

|

分布式计算 Java Spark

Spark Driver和Executor数据传递使用问题

Spark Driver和Executor数据传递使用问题

诸葛子房

31 0 0

知与谁同

|

分布式计算 Java Spark

Spark Streaming 数据清理机制

知与谁同

1037 0 0

祝威廉

|

分布式计算 Java Spark

Spark Streaming 数据清理机制

大家刚开始用Spark Streaming时，心里肯定嘀咕，对于一个7*24小时运行的数据，cache住的RDD,broadcast 系统会帮忙自己清理掉么？还是说必须自己做清理？如果系统帮忙清理的话，机制是啥？

祝威廉

2954 0 0

疯狂的猿

|

3月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

159 0 0

热门文章

最新文章

【Flink】Flink跟Spark Streaming的区别？

大数据技术与Python：结合Spark和Hadoop进行分布式计算

Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

bigdata-36-Spark转换算子与动作算子

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

地铁译：Spark for python developers --- 搭建Spark虚拟环境3

Spark RDD类源码阅读

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）