开发者社区大数据文章正文

【Spark Summit East 2017】提升Python与Spark的性能和互操作性

2017-02-20 2639

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Wes McKinney在Spark Summit East 2017上的演讲，对于使用Python编程以及并行化和扩大数据处理方面，Spark已成为一个受欢迎和成功的框架，但是在很多案例中，使用PySpark的任务处理要比使用Scala编写的效率差，而且在Python环境与Spark主机之间推拉数据也将增加开销，本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Wes McKinney在Spark Summit East 2017上的演讲，对于使用Python编程以及并行化和扩大数据处理方面，Spark已成为一个受欢迎和成功的框架，但是在很多案例中，使用PySpark的任务处理要比使用Scala编写的效率差，而且在Python环境与Spark主机之间推拉数据也将增加开销，本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题。

2ef4c1e8ce2bb431cfdc5dc300690be7d08ee391

6533f522e0f9700fd924f4711d9622f3501535a3

e1e7076e2e5190deb1c9e56a34e0af8c5c5b07b4

b16581bd582d96e0e14bc0f65539857c05bb0619

bcf013b9efbf603d289c42468ce7d83059cfe0e7

8e02d0b8c50fa22ea8ee3f6f1ba34b2aad474d55

f07905ac52e7bd8460c45d9366d63d94b299e029

842348e22688651e1dac5956ba758904720935f5

699df25845bef4329a898b3763c36eef2fe9a358

2ac5fb6c83a1d2182f4658b414c61271338cdcf3

459048e56b07d15e0c4cbbbc8c6c07e9790c8d14

c7b2f3574b50898a88090f7dcaad9e86f02c28df

e98732d6a684101c2b3d087118cf7e3155edb497

ae58a3ee7cd8f6da3d48dc46dcf7ade37d6b607c

6ffcc0d46ab3c167d876c82b1e12f4d2f676e0ff

0806d2e97d4f639358ccb19e8b2ce17d8d942a67

625894bb69b9645cd464f8231f7165cdd1e7afc7

23c53ca3f2a34ec001e6aeb0533d09068ffefe35

43f8f037cca2b8c6fa10fff7c29e07e2a86e5bd3

053902ef224bfb71529a3a255b4eb947f84a9d0d

bb372e5d79374a00c002c4428e897fa98e041882

a4a60685b7e52ee9400c3f09760d3418b8b487aa

faf78cb01b67e37c6b945f6c359cc7049569500f

280ee5a1bec14d751a66fecbfc255b105e4e2dd9

209cfccffac1191241a725423e72cef40c0b1314

31f3aa7af8a303a968346db659574c591f21d3bb

5ac6d840cad5cd6679bfa79423ed80a493fc362a

2a1c30a9473a0e5b836b519722c6ced79e733c14

47093f312d1264c193a1aa2250c6d6a13f7d567e

167404278a675d3e2af484a3cd412448e117fbde

92a3b7370a977c61a244011229f7d300f40ce1a7

3b8f48a46f5e6b509f86dc18d8b7a56d0fd20445

bf025b712b16dd6e2ddcb737f0e3202700d29664

4cb059376ea6055bbef68696feae4b9fd0c7a71b

849384822a606833f9f72c389f39840c3d815b00

d065055a4f0c20ac02550396ebbaf4237586df2b

9f942e2cce5732e5e71d4ea3772c5ae563a056fd

文章标签：

Python

大数据

分布式计算

Spark

数据处理

Scala

MaxCompute

关键词：

Python性能

Python spark

apache spark Python

apache spark性能

apache spark summit

小猫吃鱼569

桃李春风一杯酒

1月前

缓存负载均衡安全

在Python中，如何使用多线程或多进程来提高程序的性能？

【2月更文挑战第17天】【2月更文挑战第50篇】在Python中，如何使用多线程或多进程来提高程序的性能？

桃李春风一杯酒

23 4 4

python猫

2月前

人工智能测试技术开发者

Python 潮流周刊#15：如何分析 FastAPI 异步请求的性能？

python猫

63 2 2

python猫

2月前

存储算法测试技术

万万没想到，除了香农计划，Python3.11竟还有这么多性能提升！

python猫

31 1 1

桃李春风一杯酒

7天前

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

23 1 1

游客762btuqu5wybw666

10天前

缓存监控算法

优化Python代码性能的10个技巧

提高Python代码性能是每个开发者都需要关注的重要问题。本文将介绍10个实用的技巧，帮助你优化Python代码，提升程序的运行效率和性能表现。无论是避免内存泄漏、减少函数调用次数，还是使用适当的数据结构，都能在不同场景下发挥作用，使你的Python应用更加高效稳定。

游客762btuqu5wybw666

12 1 1

4as3qn2go3ure

3天前

数据可视化测试技术 Python

在Python和R中使用交叉验证方法提高模型性能

4as3qn2go3ure

4 0 0

zuozewei

25天前

XML Shell Linux

性能工具之 JMeter 使用 Python 脚本快速执行

zuozewei

40 1 2

桃李春风一杯酒

1月前

缓存监控应用服务中间件

如何使用负载均衡器提升Python Web应用的性能？

【2月更文挑战第27天】【2月更文挑战第94篇】如何使用负载均衡器提升Python Web应用的性能？

桃李春风一杯酒

16 0 0

桃李春风一杯酒

1月前

缓存监控前端开发

如何优化 Python WEB 应用程序的性能？

【2月更文挑战第27天】【2月更文挑战第93篇】如何优化 Python WEB 应用程序的性能？

桃李春风一杯酒

15 0 0

傻啦嘿哟

1月前

机器学习/深度学习 Go 云计算

Go语言与Python语言的性能比较

傻啦嘿哟

34 1 1

【Spark Summit East 2017】提升Python与Spark的性能和互操作性

热门文章

最新文章

相关课程

相关电子书

相关实验场景