备案控制台

开发者社区

开发者社区大数据文章正文

【Spark Summit East 2017】为什么没有人会告诉你如何写一个流应用

2017-02-18 3210

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Mark Grover与Ted Malaska在Spark Summit East 2017上的演讲，主要分享了开发一个非凡的流应用不得不考虑的几个问题。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Mark Grover与Ted Malaska在Spark Summit East 2017上的演讲，如果你想开发一个非凡的流应用就不得不考虑以下的问题：

怎么管理补偿?
怎么管理状态?
如何让Spark Streaming工作能够从失败中恢复?能够避免一些失败吗?
如何优雅地关闭流的工作?
如何监控和管理流的工作吗?
怎样才能更好地在流中管理DAG?
什么时候使用检查点，什么时候不用？
为什么在流数据源时需要WAL？

67f4d5fb5973809a82e08823e8b88f422f246526

a97a89412b03310359a5a9a556c9970c2c759657

12fa14ea19c8c4c32e331551f5ffc3169e770a46

dc64fdefebce80933fb318ad88fa639ed9586c97

5d52c462f1f49b52df7ace0b5886f77ac11cecfd

06b326871bd9ca934a7c730eec9b7c06593faf80

796dcc001bbd24a80bf151c3bf27c2e35cf463bd

8474bcf579c671bd9458841124240da7d8b2fdd3

efbf59b8be4d89cae0034b280d811052e1673c91

ed98ad44ef704a2e18d2e4cff14e1980a2523691

4b3da108b5a5d37766c3381c88941507975d2365

775635cc47ae59accb4c992a5c79d8517644ec05

d4aceb81595484427787ca95ca10891ed0f4a24f

4e7600b17c4d0763fb3c5b3c70bfe911bae52629

70f32699c32ae19f275d56be77a2e0d6c5decabe

8903434576385936dee4462db748082e1d181f3d

aef03d6be7076e3247b0ed8feafb0b268fc8f836

c39b439c9708b41436c63ecaa6b73480c6424a79

960046cc1f363ee56005fb82bbe3050d4ccfd104

3b05700c4d62c35d20bae7d5e29477215cbefba0

424891a4778524292eca02a05fc3b80bbc454af4

afa3cf8500ef1f140f069cb9aecf540087affa03

b825e24bfb7c9383faa3177952bbab6e5578a177

ae6c6833412015bd38989e58562d5915c8a2bdb0

cfa8178ef46ff9102922bef8988922eb94ee2259

5fdb18561aff2d23f16e501459ad014767aca0d6

e0959afcccedbd9271e60f43980bf17caf318daa

eb03eec6aad7553e3aa5b12009e933b2b8075e83

60e91c40c66601a749eb3ba02829869afda9a281

2ca32822de01b8257e88c9c645c90a625f46ba6a

9efa9c857e4b3a2744cb110c14713ff5bc2b9bca

bc6f6dc6b7b2c2b6e5dac3fc009aa3c8785d3bb4

279aac05c06e691f1776588d71e9ac0c53a891e8

a8f2abd55f06ba647b4bf9a9fe412715b30b4c85

c1f6034b7d1ff47a581a827f22320d30792939b2

5b0c066c599b7c0510af4e41d439f42f4b6e273a

213b3d6b45620bf276df93128f23fa1bc4fe2c23

696ca580bca699665ec1c5816467c94b637da331

fadd3cf51a90a908368714ae68fe1ee444234c5c

3dc9e401509500a57c3dbb92ce56fe0e8d3fd51c

91078cb6dff273d34363d474530a543d060f8e7d

f0628e09d021a04f2f0097425f70f16a1f92827a

a08a254b543cc9761f6b668f7a59b23b2e967b2b

b48bb9cd1f2c6eb6cc981a37ab55140658ce84b6

24f620ee607ca672ae018c2374eab2bab0c5d971

08ba355eb3c69e3fb0ef3dd7dfc3b82a5d58993a

5b22514c1dbfcfda4b8695527295ae5dd13e7c6c

e9869fd28fc880c926d16da09ad9fe4c6608d11f

2bffc9c62731ae3e9dcceca44aff76be9b938647

0394082246e84068b4e48842530dd757a452dd30

857be51e76c843a5ffeac3f421d5073b3c889981

80621c22173dec2c559282aab42d36ccebecb53c

f28a6bdabefd89429cf01ea11f55d5fc7101e2fd

6b1a780775cf3c0e64d7f7f9575050b95e5d6884

e60976b3a765a7f9f72dfc0d693af64f7bb35742

a08b008c7521fd314c55ceed479e7f2be8bf5078

e6830ac55312ac83589d12f87708590ebeef58ae

22f77909ca0ca1d98322df1a245ad0fcf8593f8c

c11e5b9461d6bf7a278b0d52fa1941dcec85468c

6ba4a8a026ac19c719d1f0ec1d9e58b5648b2cb9

1f83e5d5eb2066c6de1bd95799eee52768681204

b320f97855acbcc00ec3cf8f19f511b740b550bf

1bae39e5a6d0e336b956a456886adf3c283f7cc8

f18b0edfd66d30903c063024430c731b35bb63e5

0c9ecdbf4bd310b33196d8a3fcbd898866dec11f

02f73dec924029193b969626c85970446ee99e13

01973fc199ce792718d284f5856d970a3286c820

025ce321d1ae76706ad6ca270cb5dc55c545e721

b97b05320bdbcc61f042dcd8b1077e50f0e816b1

c7212c16f67eae7490afc9d5285db631d50246fa

f8d32b1045c7d1c895e3454022021a08bd6fa985

26b61421978a1183a39631e3e6a0ceabe4177d1c

5360cad3432ff50e65ccd3c53e9e134578dc6e29

d4ff687586b65cfbb63ba262766091abb0dc2646

36c0a0677bb35778c3848e955ea4c7b967a13c91

d214338930e027049214647c9a2d68c3cb81d800

e8a48e8cb9ab226d56ebf1f4475154fffe13cba2

759d53cfa62504ebc1d8df7794b097588104adcb

b4489aa82afb167c5652fff92876e39dfe3a1b29

文章标签：

监控

大数据

分布式计算

Spark

关键词：

apache spark应用

apache spark summit

apache spark summit east

apache spark east

apache spark summit east应用

小猫吃鱼569

目录

相关文章

疯狂的猿

|

3月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

157 0 0

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

70 0 0

BookSea

|

6月前

|

SQL 分布式计算 Java

Spark入门指南：从基础概念到实践应用全解析

在这个数据驱动的时代，信息的处理和分析变得越来越重要。而在众多的大数据处理框架中， Apache Spark 以其独特的优势脱颖而出。

BookSea

65 0 0

明哥的IT随笔

|

6月前

|

分布式计算安全 Java

SPARK 应用如何快速应对 LOG4J 的系列安全漏洞

SPARK 应用如何快速应对 LOG4J 的系列安全漏洞

明哥的IT随笔

69 0 0

疯狂的猿

|

1月前

|

机器学习/深度学习分布式计算监控

典型的Spark应用实例

典型的Spark应用实例

疯狂的猿

40 1 1

小小程序员~

|

7月前

|

SQL 机器学习/深度学习分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

Apache Spark 的基本概念和在大数据分析中的应用

小小程序员~

66 0 0

一名技术开发者

|

6月前

|

SQL 分布式计算 Java

Spark入门指南：从基础概念到实践应用全解析

Spark入门指南：从基础概念到实践应用全解析

一名技术开发者

83 0 0

故事未完·

|

9月前

|

机器学习/深度学习存储分布式计算

Hadoop生态系统中的机器学习与数据挖掘技术：Apache Mahout和Apache Spark MLlib的应用

Hadoop生态系统中的机器学习与数据挖掘技术：Apache Mahout和Apache Spark MLlib的应用

故事未完·

242 0 0

佩奇搞IT：18179018113

|

10月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

佩奇搞IT：18179018113

104 0 0

不懂开发的程序猿

|

11月前

|

分布式计算 Ubuntu Java

使用IntelliJ Idea开发Spark Streaming流应用程序

使用IntelliJ Idea开发Spark Streaming流应用程序

不懂开发的程序猿

116 0 0

热门文章

最新文章

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

大数据技术与Python：结合Spark和Hadoop进行分布式计算

bigdata-36-Spark转换算子与动作算子

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

Spark RDD类源码阅读

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark环境搭建与使用

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

阿里云oss简介和使用流程