备案控制台

开发者社区

开发者社区大数据文章正文

【Spark Summit East 2017】Kafka、YARN与Spark Streaming作为一个服务

2017-02-20 3586

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Jim Dowling在Spark Summit East 2017上的演讲，主要介绍了在容易进行调试的YARN上构建多租户Spark streaming应用程序的过程中遇到的挑战，并展示了如何使用ELK技术栈对Spark streaming应用程序进行日志记录和调试，以及如何使用Graphana和Graphite对应用进行监控以及优化以及使用Dr Elephant终止Spark streaming任务。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Jim Dowling在Spark Summit East 2017上的演讲，主要介绍了在容易进行调试的YARN上构建多租户Spark streaming应用程序的过程中遇到的挑战，并展示了如何使用ELK技术栈对Spark streaming应用程序进行日志记录和调试，以及如何使用Graphana和Graphite对应用进行监控以及优化以及使用Dr Elephant终止Spark streaming任务。

492b1ca960022958ad63a93f1998dea1ac034d7d

7b66b3701a1091c381306813faed697c15e24b39

02871e535180064c299d98d52163f67aa1a7ae70

13706f08e976f171c55e70b5b4d754997fdf34bb

293a94a22a18a869d71e6de0aa47d16c2476713c

e02c364b450414cd0baec8fe62126db64ac49448

c7932676561028e07ac5176a832b7947588a39db

5039b973479339465e8bb29162173a08d9ba1ee1

13ef0c332b9357de845b7e46825d16a8781c4fce

f6b2e978164d9177e21f20fb00626688450a653a

f5bfa0b68262925a3737022d0067d90b5a8c7c81

9ebca785fcf9156e1cd2889decd81a1d31eeae07

f6dd6d30c256d9a5153bebe39f9b20bc052912a2

03349a99901633e32e769e38add8e175de63639a

d80238814c61daf82fc9d5cae4534f25cb679cf5

873a5470ca02cbb9c51d9ec2db0dec4d271c408d

39fc8943328997e335522a893537728c00a7b0c6

0e7414c1c345625e35c27ce4c9fc8ce06e69a175

979aa165d6875735b22bd9b52c160b51fc958a6e

39f78ec224143b13b97e98bf2c308b9638d5486a

80e44c967c73022e15ba0f7fd8e965e5d0c3ff32

a5734d1c5a5602f94092b2d257a0aea74d77a026

69a306ab2505b9641d223cee47c0864be85f94b4

302924497d2a15f81b4a9841f3ea761254ad7ef4

3baf35608840b9757bc505384fa55b478d625251

6d4eea35e72a3286e314a7c679e8456119068518

f5bb21edb933e9702c46c7cbe85e624e390a50cb

0756d53824c764ef6015fa7be0ce715c4cc07e87

c52c569790c1a82f75d2f85b61f8d0234bb75b4e

18095263c9b36295b440c441135e4757ee47e1b7

b7aaf2b91ddaeae706989010550656fb759348ab

c0fc7314d602ed3670b3de1c7d448454e1c4769d

acdf80e3d585f20c3f974feca847202228b7fcc4

65b87a5b6d4be2df40d28c958fb7e95e902adba0

8a1ad3795ece0f2b720c4f9fb9e38f1db6abec68

db03753a43d419aa6d21a80dea6340160312ecc5

589951dd57a433e8c424e2d78f695b87d2a5a0b2

文章标签：

云消息队列 Kafka 版

分布式计算

监控

大数据

Spark

流计算

关键词：

apache spark streaming

云消息队列 Kafka 版服务

Yarn spark

apache spark yarn

apache spark kafka

小猫吃鱼569

目录

相关文章

爱吃糖的范同学

|

4天前

|

分布式计算大数据数据处理

【Flink】Flink跟Spark Streaming的区别？

【4月更文挑战第17天】【Flink】Flink跟Spark Streaming的区别？

爱吃糖的范同学

34 6 6

xleesf

|

1月前

|

存储分布式计算 Spark

实战|使用Spark Streaming写入Hudi

实战|使用Spark Streaming写入Hudi

xleesf

39 0 0

建模sister

|

2月前

|

分布式计算资源调度监控

Spark学习--1、Spark入门（Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式）（一）

Spark学习--1、Spark入门（Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式）（一）

建模sister

89 1 1

晓之以理的喵~~

|

3月前

|

消息中间件分布式计算 Kafka

Spark与Kafka的集成与流数据处理

Spark与Kafka的集成与流数据处理

晓之以理的喵~~

225 0 0

晓之以理的喵~~

|

3月前

|

分布式计算监控数据处理

Spark Streaming的容错性与高可用性

Spark Streaming的容错性与高可用性

晓之以理的喵~~

52 0 0

晓之以理的喵~~

|

3月前

|

分布式计算数据处理 Apache

Spark Streaming与数据源连接：Kinesis、Flume等

Spark Streaming与数据源连接：Kinesis、Flume等

晓之以理的喵~~

59 0 0

晓之以理的喵~~

|

3月前

|

消息中间件分布式计算 Kafka

使用Kafka与Spark Streaming进行流数据集成

使用Kafka与Spark Streaming进行流数据集成

晓之以理的喵~~

161 0 0

晓之以理的喵~~

|

3月前

|

分布式计算监控数据处理

Spark Streaming的DStream与窗口操作

Spark Streaming的DStream与窗口操作

晓之以理的喵~~

39 0 0

晓之以理的喵~~

|

3月前

|

分布式计算监控数据处理

实时数据处理概述与Spark Streaming简介

实时数据处理概述与Spark Streaming简介

晓之以理的喵~~

40 0 0

程序饲养员

|

2月前

|

消息中间件安全 Kafka

2024年了，如何更好的搭建Kafka集群？

我们基于Kraft模式和Docker Compose同时采用最新版Kafka v3.6.1来搭建集群。

程序饲养员

424 2 4

2024年了，如何更好的搭建Kafka集群？

热门文章

最新文章

【Flink】Flink跟Spark Streaming的区别？

大数据技术与Python：结合Spark和Hadoop进行分布式计算

npm，registry，镜像源，npm切换源，yarn，cnpm，taobao，nrs

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

yarn 的安装和使用

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

云原生最佳实践系列 5：基于函数计算 FC 实现阿里云 Kafka 消息内容控制 MongoDB DML 操作

【Hadoop Yarn】Hadoop Yarn 基于优先级的调度算法

【Hadoop Yarn】Yarn 工作机制

深度探索：使用Apache Kafka构建高效Java消息队列处理系统

【Kafka】分区副本中的 Leader 如果宕机但 ISR 却为空该如何处理

【Kafka】Replica 的重要性

【Kafka】Replica、Leader 和 Follower 三者的概念分析

Kafka消费者：监听模式VS主动拉取，哪种更适合你？

Kafka重要配置参数全面解读(重要)

了解Kafka位移自动提交的秘密：避免常见陷阱的方法

揭秘Kafka拦截器的神奇操作

深入了解Kafka的数据持久化机制

深度解析Kafka中的消息奥秘

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

Hadoop 分布式资源管理框架 YARN

分布式消息系统 Kafka 快速入门

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）