开发者社区云原生容器服务文章正文

【Spark Summit East 2017】从容器化Spark负载中获取的经验

2017-02-18 1919

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

容器镜像服务 ACR，镜像仓库100个不限时长

简介： 本讲义出自Tom Phelan在Spark Summit East 2017上的演讲，Tom Phelan探讨了如何实现高可用性的分布式大数据应用和数据中心主机，并分享了学到的经验教训，并对于如何在一个可靠的、可伸缩的、高性能的环境将大数据应用程序容器化给出了一些提示。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Tom Phelan在Spark Summit East 2017上的演讲，主要介绍了在Spark集群上部署分布式大数据应用程序面对的容器生命周期管理、智能调度优化资源利用率、网络配置和安全以以及性能等诸多挑战，Tom Phelan探讨了如何实现高可用性的分布式大数据应用和数据中心主机，并分享了学到的经验教训，并对于如何在一个可靠的、可伸缩的、高性能的环境将大数据应用程序容器化给出了一些提示。

aa086cfd0ca85e22e6b6969c9b8003bce38aef15

248293a9b2bda56d11d6f37a6622641241181e66

f55d68645e6405060b52082a7adc5f15f50b4b13

c555b163aedd01a122466b7dabeecc95ee142da0

8bb05e07aa3140916eefaa3b2e2ed001b489d0b7

9d39c8b27086e5d91e19c6bceca6749d1617fe30

d719024d8ef22d6b1d56b30e5711449796ace480

80763d94afc0ccbb9db9bc3959aed51e66cd4bee

6857f80a917cd3af91f86bcb2c18ba01a13b31b5

439e18c4e0af31fcde2b4722fec0c929d91d53ae

33aa13334a53ed382667fa05545732cbf26092e0

9a11b0995abf5c3915cd2a86287f11bdac162ca2

3c7612ef9e38bcfe8d1bb0320c00798f8d594bba

f267b29b2f1cfa9b4e6d279681fbbec3fbd17395

6a4be138295f16145920fced485ce5db89084e33

f112ec6f811a68bc603599d6b76867becb541dfa

63746de2d37e12e48d69b8e4d74a5acb74273f9e

21cd2662a3c54143e630b971c258589a6f19b0de

a6b62011cbb8a64662383ffc365fc90fe7d93bec

039aed429e310573af0b7a402e72efc4ea304dd7

2ccce4a6db5d5a3bb80f05e7b210897751fc351f

bc199e7ced4cd986c51f6995702fc3e97568da40

460d1087a9c38edbc986f6b9bfe01f2c9e747d35

7829dd43e1afe41dd0c5f5e96169e35ef4a09abf

8692d875744933841f5cc28413a3fde82408191b

e030239d553d331474c9f28b1d6a1f452b9cff25

712c88f2e5dd9bf05f7530e352cfae56af288025

54a3bded79095498339df82e2ca8c748e1289cd2

e011c6b5ab597c356ed208ca9e34cffb2f615593

a749436d96d3826740b0674aba54f96cbf7bd6f9

6f7a721488da4f0854167b2ca1f8154db53a615e

023a706ddb0197a0a0e3163d0667c209018f9142

790eec804049fcf4e2ebf42dde08fa9bb814aee6

ccc25750fea9aa3550f52f48f74e296c04016163

文章标签：

云原生大数据计算服务 MaxCompute

容器

安全

数据中心

大数据

分布式计算

Spark

调度

MaxCompute

关键词：

apache spark summit

summit容器

apache spark summit east

apache spark east

apache spark summit east经验

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

小猫吃鱼569

故事未完·

9月前

资源调度分布式计算 Hadoop

大数据平台搭建（容器环境）——Spark3.X on Yarn安装配置

故事未完·

694 1 1

阿里云E-MapReduce团队

SQL 人工智能分布式计算

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

超乎你想象的干货合集打包带走！

阿里云E-MapReduce团队

22612 0 0

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

阿里云E-MapReduce团队

人工智能分布式计算 Spark

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

阿里云E-MapReduce团队

880 0 0

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍

阿里云E-MapReduce团队

1539 0 0

阿里云E-MapReduce团队

分布式计算 Prometheus Kubernetes

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

阿里云E-MapReduce团队

2126 0 0

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

阿里云E-MapReduce团队

SQL 人工智能缓存

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

在Spark + AI Summit 2020上， Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰，在性能上大幅超越 Presto。在过去几年，我们见过了太多的 benchmark，大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心，可谓及时雨。

阿里云E-MapReduce团队

2445 0 0

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

开源大数据EMR

人工智能分布式计算大数据

Spark + AI Summit 2020 中文议题有奖征集

北美 Spark + AI Summit 2020 盛会在即，Apache Spark 中国技术交流社区在此诚邀各位，代表国内开发者选择您最希望听到的主题，届时社区将联合国内顶尖技术专家一一展开中文形式分享。

开源大数据EMR

1076 0 1

阿里云E-MapReduce团队

机器学习/深度学习人工智能分布式计算

Spark + AI summit 2019北美技术峰会华丽落幕

本次SAIC含盖了数据工程与数据科学的内容，包括AI产品化的最佳实践案例分享：超大数据规模下，利用流数据处理确保训练数据更新的时效性，完成数据质量监控，测试以及数据模型服务。也有对流行的软件框架如TensorFlow，SciKit-Learn，Keras，PyTorch，DeepLearning4J，BigDL以及Deep Learning Pipelines等，分别进行深入的主题分享探讨。

阿里云E-MapReduce团队

1202 0 0

疯狂的猿

3月前

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

157 0 0

桃李春风一杯酒

7天前

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

21 1 1

云原生

【Spark Summit East 2017】从容器化Spark负载中获取的经验

容器服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景