备案控制台

开发者社区

开发者社区大数据文章正文

【Spark Summit EU 2016】Spark数据感知

2017-02-14 1762

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲，聚合了物联网、社交网络和电信数据的应用在“玩具”数据集上运行的非常好，但是将应用部署到真实的数据集上时就可能变得缓慢甚至崩溃，为了应对这一问题，Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲，聚合了物联网、社交网络和电信数据的应用在“玩具”数据集上运行的非常好，但是将应用部署到真实的数据集上时就没有看上去那么合适了，事实上可能变得令人惊讶的缓慢甚至会崩溃，这就是所谓的数据倾斜（data-skew），为了应对这一问题，Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架。本讲义就介绍了这个基于Spark的数据感知分布式数据处理框架的技术细节。

d1a698da4a4a7f46442409bdfdc3b0a3716d749f

edb68ed75752f3d447b5b9e9cf9695c0d4dd4e3d

f5b7a881f375e74064c85ae3459931862cee9029

6c90cb803595e51b543dd0621cc594de09550595

9894bae58ce2b2e3c74889efedad36dbe1f5d444

3df500533760579663d6d587b4625836d60da990

228767d9baf697166af2df20f74b0a495c3ec602

a54364034b1d0aa6b9555df91a57435b6b313d9d

839840382bcd1ea7d92825dad6127224fb3ba55c

75654cb75d7fc9800c0b6d1ff7a64513da03bce1

f2b1a14479ac6119f019ae773d52f28493ef9e74

f27a60545968ef74f60759c3359e0677047ae4d3

e4fbf08b7eccb419d61d445032f726435726c2fd

b51757d1b428014e3a90fdf485234431e218a454

3b0c2f4b0d4a7aa823e121883fa984bcf2cf2bff

063390e26f25a348e1ddb74d2e5a9c9490c3aaf6

30e2f0f44b395249f286b0648553681deb9fb11a

1dbacf6236bfb3f3bb7f0de22b940451de92dbd9

4388913f8168bd154710cca7d3bb5044b2ae8291

9c2d39e78523063e9c9ae50ea9bb7bab9ea644c2

a9f3f83606de627b9593e8493969c2779bc077f2

ab4a01d2dff277f6c7c2aebde45287d0df6d30db

2dc25c4f4e56be74bef158be71835120aeb5000c

51fd2a63a61041cf25877522ed8e1df19578884e

21db4d9330fd93f6e3018a8622c20881ece9a338

3041f0e1158098cd233b99c2d1518ff3de37c59b

a2f0613034d1f696e1e728e6decfb4b318e84f6a

0afc3c775545a2d66c786b68884518ca74aa06e4

c9afa7a9381e4f6a3d58b1c542493ca6c9f2204d

49f218fe5267e89819dd63a46eaa710baf781188

5f7f2c7428a817d618b4a54a6fbdd6f65af0f4f7

46f8dcb3440dae5e8dbd682bd2883a10106a7555

568aed82c7d01dae8f8ef338c6dfb4b585e1cdc2 b101c438b513b4d9f5e2fa6f74bb418b6afca399

文章标签：

物联网

分布式计算

Spark

关键词：

apache spark数据

apache spark summit

apache spark summit eu

apache spark summit eu数据

小猫吃鱼569

目录

相关文章

赵广陆

|

7月前

|

canal 分布式计算关系型数据库

大数据Spark Streaming实时处理Canal同步binlog数据

大数据Spark Streaming实时处理Canal同步binlog数据

赵广陆

112 0 0

建模sister

|

2月前

|

SQL 分布式计算 API

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

建模sister

52 2 2

热烈的马

|

4月前

|

分布式计算大数据 Apache

【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解（图文解释超详细）

【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解（图文解释超详细）

热烈的马

62 0 0

建模sister

|

1月前

|

SQL 分布式计算 Java

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

建模sister

76 1 1

sunrr

|

1月前

|

存储分布式计算 API

adb spark的lakehouse api访问内表数据，还支持算子下推吗

【2月更文挑战第21天】adb spark的lakehouse api访问内表数据，还支持算子下推吗

sunrr

107 2 2

晓之以理的喵~~

|

3月前

|

分布式计算分布式数据库 API

Spark与HBase的集成与数据访问

Spark与HBase的集成与数据访问

晓之以理的喵~~

70 0 0

晓之以理的喵~~

|

3月前

|

JSON 分布式计算关系型数据库

Spark中使用DataFrame进行数据转换和操作

Spark中使用DataFrame进行数据转换和操作

晓之以理的喵~~

99 0 0

晓之以理的喵~~

|

3月前

|

存储分布式计算调度

Spark任务调度与数据本地性

Spark任务调度与数据本地性

晓之以理的喵~~

31 0 0

诸葛子房

|

4月前

|

分布式计算 Java Spark

Spark Driver和Executor数据传递使用问题

Spark Driver和Executor数据传递使用问题

诸葛子房

30 0 0

Maynor

|

4月前

|

SQL 分布式计算 Apache

流数据湖平台Apache Paimon（六）集成Spark之DML插入数据

流数据湖平台Apache Paimon（六）集成Spark之DML插入数据

Maynor

77 0 0

热门文章

最新文章

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

大数据技术与Python：结合Spark和Hadoop进行分布式计算

bigdata-36-Spark转换算子与动作算子

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

Spark RDD类源码阅读

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark环境搭建与使用

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

阿里云oss简介和使用流程