开发者社区大数据文章正文

【Spark Summit EU 2016】Spark的性能，过去、现在与未来

2017-02-15 1815

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Sameer Agarwal在Spark Summit EU 2016上的演讲，他首先从机器的存储、网络以及CPU等硬件的性能发展变化讲起，再谈到软件中Spark IO的优化、数据格式的改进提升，并介绍了Tungsten项目，该项目的目标是大幅度地提升Spark集群的内存和CPU的执行效率，推动Spark的性能最大可能地接近硬件性能的极限。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Sameer Agarwal在Spark Summit EU 2016上的演讲，他首先从机器的存储、网络以及CPU等硬件的性能发展变化讲起，再谈到软件中Spark IO的优化、数据格式的改进提升，并介绍了Tungsten项目，该项目的目标是大幅度地提升Spark集群的内存和CPU的执行效率，推动Spark的性能最大可能地接近硬件性能的极限。

cae5d95531b6fbf4b2b5c197d1b440aad1dc3b19

e01136160055b69db718c7af68ca0b6207526148

1ec5c6f4cd2ff9694c0a3c945f18d4611e9a33e7

d1e71a9022636e33c26c84999726d22d146f7c1f

66f73fa35ff213a9a1db5f8fac22556f0db37e55

eb25a93b195d46c90f2f1c2aec783cec101b5d87

bdd203009a4c89f659f775eb59db3b408945447a

c7aea88380eaf2e8d14bfbf39dd71cdc29283837

31e4b3a5691896eb4a972f34855c5015e804475e

1187774c893b93338b6f785928d355ae535d5600

7aa65bf945c994b028a4f2efa3438419a9b0b5e7

65283ff5ca15afc11265ee26b4d10a96bb2a3cea

1c19373f98018998d2449e1270659b2766ca8719

7cda2a778ee81cab770a60202dd5255e72ba8609

0c4a2664f58c2c1297367dff48131c3a5ba2857d

057a8fca14efdb8da769c0a5e9246d4b279c6d2e

c7dc94365117701aaef9f0fa9ca8bd1f8e1a38c1

25e314220ea5fc91991f99ccc69a108e98399bbe

d526a173b9531380bac13f8f65e515a2d5bf6275

d06c1d488ce56756054a024d15d10a0b16bef352

54fc39e854a92eee886af21040c870fa97e2adcd

433624243dbba297316ae38e11acceef27cbcac8

c855e122ec5265c5f3df4095ce1232fbce31b166

af9eaa355efc9b6edb8dc2166fc0b60c33efe636

0a3ca2e9d8b4fdd8ab97aed44fb2c62c9cc9be4c

c533159c89e134d4a44c671ee91cc804ed4a1806

2c1976a8a8523bc9e57fa3263bdd0fe30082f832

6f5c905d9c1a17800eb907545488b1e258c018ef

a9192c2d765b55f1f290fbc1a4f3601084ad5061

8a26805a05453e285f22066d190f26ab633dadf0

9ea222dd1b2259aff72eccf2c0a883a46b148c77

85cbb76bafe50edd6685d846bd32d402462ca5b6

07f50e7f2788b12856ae6210db05fedbc6e7b4e1

e444941eccb2af7e663545a93f30698787dfceb8

04842782584505e3070e8bb1c6332d9390dc0e71

3d6efd9b32a3ba336879ceebf2a10b3faa4e407a

8dcf555f8a820adafb785930ef63a090ee7f8102

e9d38d322649b357d34c8433acad689ec0049340

35d034cbb60bed0e6d1ce032c8bef59d390c1c90

文章标签：

分布式计算

存储

Spark

数据格式

大数据

MaxCompute

关键词：

apache spark性能

apache spark summit

apache spark summit eu

apache spark summit性能

apache spark summit eu性能

小猫吃鱼569

晓之以理的喵~~

3月前

缓存分布式计算监控

Spark RDD操作性能优化技巧

晓之以理的喵~~

36 0 0

晓之以理的喵~~

3月前

存储缓存分布式计算

Spark RDD持久化与缓存：提高性能的关键

晓之以理的喵~~

34 0 0

极客李华

3月前

分布式计算 Java 调度

Spark中的Shuffle过程是什么？为什么它在性能上很关键？

极客李华

27 0 0

6hkip34i2a7n6

SQL 分布式计算 Spark

SPARK SQL中 CTE(with表达式)会影响性能么？

6hkip34i2a7n6

582 0 0

素履

SQL 缓存分布式计算

Spark性能调优与故障处理

Spark性能调优 Spark数据倾斜 Spark Troubleshooting

素履

459 0 1

阿里云E-MapReduce团队

SQL 存储缓存

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化，使用索引和缓存来解决交互式查询性能挑战。

阿里云E-MapReduce团队

1752 0 0

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

开发者说

SQL 分布式计算 Java

Apache Spark 3.0中的SQL性能改进概览

阿里巴巴高级技术专家李呈祥为大家带来Apache Spark 3.0中的SQL性能改进概览的介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

开发者说

3521 0 0

阿里云E-MapReduce团队

SQL 人工智能分布式计算

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！

阿里云E-MapReduce团队

22615 0 0

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

阿里云E-MapReduce团队

人工智能分布式计算 Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

阿里云E-MapReduce团队

881 0 0

阿里云E-MapReduce团队

分布式计算大数据 Spark

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳，本次直播将详细介绍Native Codegen框架。

阿里云E-MapReduce团队

1328 0 0

【Spark Summit EU 2016】Spark的性能，过去、现在与未来

热门文章

最新文章

相关课程

相关电子书