【Spark Summit EU 2016】Spark数据感知

简介: 本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲,聚合了物联网、社交网络和电信数据的应用在“玩具”数据集上运行的非常好,但是将应用部署到真实的数据集上时就可能变得缓慢甚至崩溃,为了应对这一问题,Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲,聚合了物联网、社交网络和电信数据的应用在“玩具”数据集上运行的非常好,但是将应用部署到真实的数据集上时就没有看上去那么合适了,事实上可能变得令人惊讶的缓慢甚至会崩溃,这就是所谓的数据倾斜(data-skew),为了应对这一问题,Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架。本讲义就介绍了这个基于Spark的数据感知分布式数据处理框架的技术细节。


d1a698da4a4a7f46442409bdfdc3b0a3716d749f

edb68ed75752f3d447b5b9e9cf9695c0d4dd4e3d

f5b7a881f375e74064c85ae3459931862cee9029

6c90cb803595e51b543dd0621cc594de09550595

9894bae58ce2b2e3c74889efedad36dbe1f5d444

3df500533760579663d6d587b4625836d60da990

228767d9baf697166af2df20f74b0a495c3ec602

a54364034b1d0aa6b9555df91a57435b6b313d9d

839840382bcd1ea7d92825dad6127224fb3ba55c

75654cb75d7fc9800c0b6d1ff7a64513da03bce1

f2b1a14479ac6119f019ae773d52f28493ef9e74

f27a60545968ef74f60759c3359e0677047ae4d3

e4fbf08b7eccb419d61d445032f726435726c2fd

b51757d1b428014e3a90fdf485234431e218a454

3b0c2f4b0d4a7aa823e121883fa984bcf2cf2bff

063390e26f25a348e1ddb74d2e5a9c9490c3aaf6

30e2f0f44b395249f286b0648553681deb9fb11a

1dbacf6236bfb3f3bb7f0de22b940451de92dbd9

4388913f8168bd154710cca7d3bb5044b2ae8291

9c2d39e78523063e9c9ae50ea9bb7bab9ea644c2

a9f3f83606de627b9593e8493969c2779bc077f2

ab4a01d2dff277f6c7c2aebde45287d0df6d30db



2dc25c4f4e56be74bef158be71835120aeb5000c

51fd2a63a61041cf25877522ed8e1df19578884e

21db4d9330fd93f6e3018a8622c20881ece9a338

3041f0e1158098cd233b99c2d1518ff3de37c59b

a2f0613034d1f696e1e728e6decfb4b318e84f6a

0afc3c775545a2d66c786b68884518ca74aa06e4

c9afa7a9381e4f6a3d58b1c542493ca6c9f2204d

49f218fe5267e89819dd63a46eaa710baf781188

5f7f2c7428a817d618b4a54a6fbdd6f65af0f4f7

46f8dcb3440dae5e8dbd682bd2883a10106a7555

568aed82c7d01dae8f8ef338c6dfb4b585e1cdc2b101c438b513b4d9f5e2fa6f74bb418b6afca399


相关文章
|
7月前
|
canal 分布式计算 关系型数据库
大数据Spark Streaming实时处理Canal同步binlog数据
大数据Spark Streaming实时处理Canal同步binlog数据
112 0
|
2月前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
52 2
|
4月前
|
分布式计算 大数据 Apache
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
62 0
|
1月前
|
SQL 分布式计算 Java
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
76 1
|
1月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
107 2
|
3月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问
|
3月前
|
JSON 分布式计算 关系型数据库
Spark中使用DataFrame进行数据转换和操作
Spark中使用DataFrame进行数据转换和操作
|
3月前
|
存储 分布式计算 调度
Spark任务调度与数据本地性
Spark任务调度与数据本地性
|
4月前
|
分布式计算 Java Spark
Spark Driver和Executor数据传递使用问题
Spark Driver和Executor数据传递使用问题
30 0
|
4月前
|
SQL 分布式计算 Apache
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
77 0