开发者社区大数据文章正文

【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

2017-02-12 3594

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Sital Kedia在Spark Summit EU上的演讲，主要介绍了60 TB+数据规模的Spark产品用例，他在开始时首先介绍了实体排序的用例，然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式，并对于两种实现方式进行了对比。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Sital Kedia在Spark Summit EU上的演讲，主要介绍了60 TB+数据规模的Spark产品用例，他在开始时首先介绍了实体排序的用例，然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式，并对于两种实现方式进行了对比。最后还分享了关于Spark的可靠性、性能的提升技巧以及配置调优技巧。

cf033017364a527c2ceff84b763b765e1342d413

15e0578e2e80b7cb1c3b40c30dc35913ccc9f24b

025f5c36319ce01c5e4633b5611352115787e324

275fd9133cbe2bca77b225f31d077c425610a459

0f03d3368bee895abc67b44cad42485193078803

32bd29d995c5644e75367c79cb7485201a11d621

9f9c9755a8a031587b997560bf951a86cd8e02af

d6173dcf92230d5c2231bb33bf99dac3bb094544

13e3bf162e2e5194f6a1361aa7cd5fe96e69dd0d

2233dad41e090b21502637213f1a89f98b1e0551

465366daae4cb98011d8874770ab6240652aaf31

215e94fb3872b98e7e09325f09338ee152d2d4a8

e8d17da255bb385042cdd03644583de596c912db

e0805232f84daf24c27131fd1066803ed0da8bf7

7f53c0ea43018681eaf9e44cfef11e2eefbae640

db0f07ba8a14536892d9eb6a1612372878974da2

2e7ce700c6c653dc3735af5de95fe157ef880103

c155e2fe8e1209ecfeee4322b2f107284bb3cc87

d0d4aebdbdfc6db312db41143f955636d514891f

d690b91286b53667f3d6a2fe6f0a2b99f5d3246c

08c686567c87689b923cf48b028836e609b7f854

ff2f8a4f330fdef382e36fde22e2f2cb5de02cb4

529c8b23331949b37dd5309bd5d4dc90a768845a

7d83a9a825b91761e876c8bae76b9516c5b8a43a

b668de6e8e396f7959aa6bada1fc2bfb204d7b13

e5a29a5d900ff97059e519a6f1fe6f19c58bad35

文章标签：

分布式计算

Spark

关键词：

apache spark数据

apache spark产品

apache spark规模

apache spark summit

apache spark tb

小猫吃鱼569

孙玉洁-47170

3月前

SQL 分布式计算 API

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

孙玉洁-47170

66 2 2

拓端数据部落

22小时前

SQL 分布式计算数据可视化

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

拓端数据部落

13 4 4

xin在这

7天前

分布式计算 DataWorks API

DataWorks产品使用合集之在DataWorks中，通过spark访问外网的步骤如何解决

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

xin在这

17 0 0

拓端数据部落

10天前

新零售分布式计算数据可视化

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

拓端数据部落

24 0 0

孙玉洁-47170

2月前

SQL 分布式计算 Java

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

孙玉洁-47170

126 1 1

sunrr

2月前

存储分布式计算 API

adb spark的lakehouse api访问内表数据，还支持算子下推吗

【2月更文挑战第21天】adb spark的lakehouse api访问内表数据，还支持算子下推吗

sunrr

107 2 2

晓之以理的喵~~

4月前

分布式计算分布式数据库 API

Spark与HBase的集成与数据访问

晓之以理的喵~~

74 0 0

晓之以理的喵~~

4月前

JSON 分布式计算关系型数据库

Spark中使用DataFrame进行数据转换和操作

晓之以理的喵~~

124 0 0

疯狂的猿

4月前

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

161 0 0

桃李春风一杯酒

24天前

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

53 1 1

【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

热门文章

最新文章

相关课程

相关电子书