【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

简介: 本讲义出自Sital Kedia在Spark Summit EU上的演讲,主要介绍了60 TB+数据规模的Spark产品用例,他在开始时首先介绍了实体排序的用例,然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式,并对于两种实现方式进行了对比。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Sital Kedia在Spark Summit EU上的演讲,主要介绍了60 TB+数据规模的Spark产品用例,他在开始时首先介绍了实体排序的用例,然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式,并对于两种实现方式进行了对比。最后还分享了关于Spark的可靠性、性能的提升技巧以及配置调优技巧。


cf033017364a527c2ceff84b763b765e1342d413

15e0578e2e80b7cb1c3b40c30dc35913ccc9f24b

025f5c36319ce01c5e4633b5611352115787e324

275fd9133cbe2bca77b225f31d077c425610a459

0f03d3368bee895abc67b44cad42485193078803

32bd29d995c5644e75367c79cb7485201a11d621

9f9c9755a8a031587b997560bf951a86cd8e02af

d6173dcf92230d5c2231bb33bf99dac3bb094544

13e3bf162e2e5194f6a1361aa7cd5fe96e69dd0d

2233dad41e090b21502637213f1a89f98b1e0551

465366daae4cb98011d8874770ab6240652aaf31

215e94fb3872b98e7e09325f09338ee152d2d4a8

e8d17da255bb385042cdd03644583de596c912db

e0805232f84daf24c27131fd1066803ed0da8bf7

7f53c0ea43018681eaf9e44cfef11e2eefbae640

db0f07ba8a14536892d9eb6a1612372878974da2

2e7ce700c6c653dc3735af5de95fe157ef880103

c155e2fe8e1209ecfeee4322b2f107284bb3cc87

d0d4aebdbdfc6db312db41143f955636d514891f

d690b91286b53667f3d6a2fe6f0a2b99f5d3246c

08c686567c87689b923cf48b028836e609b7f854

ff2f8a4f330fdef382e36fde22e2f2cb5de02cb4

529c8b23331949b37dd5309bd5d4dc90a768845a

7d83a9a825b91761e876c8bae76b9516c5b8a43a

b668de6e8e396f7959aa6bada1fc2bfb204d7b13

e5a29a5d900ff97059e519a6f1fe6f19c58bad35

相关文章
|
3月前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
|
22小时前
|
SQL 分布式计算 数据可视化
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
|
7天前
|
分布式计算 DataWorks API
DataWorks产品使用合集之在DataWorks中,通过spark访问外网的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
17 0
|
10天前
|
新零售 分布式计算 数据可视化
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
|
2月前
|
SQL 分布式计算 Java
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
126 1
|
2月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
107 2
|
4月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问
|
4月前
|
JSON 分布式计算 关系型数据库
Spark中使用DataFrame进行数据转换和操作
Spark中使用DataFrame进行数据转换和操作
|
4月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
161 0
|
24天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。