【Spark Summit EU 2016】Spark中的自动检查点

简介: 本讲义出自Nimbus Goehausen在Spark Summit EU 2016上的演讲,主要介绍了面对需要自动保证Spark的数据来源以及存储路径正确,并且在对于需要保存的数据进行保存而对于需要改变的数据进行改变,所以需要在Spark工作流中使用自动检查点来对以上要求进行保障,本讲义就主要介绍了Spark中自动检查点的使用。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Nimbus Goehausen在Spark Summit EU 2016上的演讲,主要介绍了面对需要自动保证Spark的数据来源以及存储路径正确,并且在对于需要保存的数据进行保存而对于需要改变的数据进行改变,所以需要在Spark工作流中使用自动检查点来对以上要求进行保障,本讲义就主要介绍了Spark中自动检查点的设计动机、工作原理以及使用方法。


d13878735feba91dae96abfecca483235f28428f

7197eb27996be34ee3fd8334861afe7db90e0f24

bb07bfac52fbef0a4b4b6b4505e697ed1f4149da

d01db83a9aa4c08e110b6fc854b505605052bff5

81be6513ef825db548dec130239338460291239b

9c05337ca9c213077b687b6c28eb89cea7817176

b65fd35dece94dc7f0efcb95120cf5f2bde21aad

fe8248cbc083fd77c292d8e0390772c2f71005bc

02d2f5c98ffda10d8d3a29fab87d520ff5eec5dc

ec0d8a2c34e76330dfa8f71b827ad5fbe0d5a134

940097ea92a2aa2995e8ca20b29a50e74f3f1d3a

91cf1b48fb13792c00217feadf7f6361805fc593

1fc76881f1e83d3015fc81a2601f8f624fd24b14

e6832f13d0e7ceda8b3cd2882941a8f5a646fff6

0ab81695c2b43fa6ff71d9e9b1515808235b8b3f

025a1092f8613499108e3ab563ce24f07256482b

6115e217c08bdf6dfd14c522f928a952cdc4b3ae

49508b6e6f75e6d7ea7677614532161d732a1ce1

72e5700ca0695e2be873ac5b9ccc1a849c35616d

efd7aa63786d322def6982f389e3b4b5031ac4ce

93847a2f8e0c56b12c2784df8c190f03941b9c08

eefc93121c7c8b8be5a7de439f6dcf9aca520216

4265a3c3693bda718ad7b3b774d3870c677afb42

3c96529691cfb8dbba0685d6147e3cd7997f393f

c14d05c6a5b8efdbca19bef70c195058681ab95b

0166990c11272ef55d0bf493c1a04c9713eb1930



37c8166b45c9901454db208efeb4ed8fa6801bc5

bceb678199d3b6a4a9139b37bc2ffaa52a23c730


相关文章
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
|
SQL 人工智能 缓存
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
|
人工智能 分布式计算 大数据
Spark + AI Summit 2020 中文议题有奖征集
北美 Spark + AI Summit 2020 盛会在即,Apache Spark 中国技术交流社区在此诚邀各位,代表国内开发者选择您最希望听到的主题,届时社区将联合国内顶尖技术专家一一展开中文形式分享。
Spark + AI Summit 2020 中文议题有奖征集
|
机器学习/深度学习 人工智能 分布式计算
Spark + AI summit 2019北美技术峰会华丽落幕
本次SAIC含盖了数据工程与数据科学的内容,包括AI产品化的最佳实践案例分享:超大数据规模下,利用流数据处理确保训练数据更新的时效性,完成数据质量监控,测试以及数据模型服务。也有对流行的软件框架如TensorFlow,SciKit-Learn,Keras,PyTorch,DeepLearning4J,BigDL以及Deep Learning Pipelines等,分别进行深入的主题分享探讨。
|
机器学习/深度学习 分布式计算 大数据
|
分布式计算 Hadoop 流计算
【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块
本讲义出自Arun Murthy在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Arun Murthy与团队的从各种流使用中学习到的最佳实践和经验,演讲的内容非常简单易懂并且非常有趣,在演讲的最后还介绍了像搭乐高一样搭建Storm与Spark Streaming Pipelines块的相应工具。
2467 0
|
分布式计算 安全 Hadoop
【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态
本讲义出自Vinay Shukla在Hadoop Summit Tokyo 2016上的演讲,主要介绍了 Spark的安全体系、以及YARN AM上的Spark驱动以及Kerberos身份验证等相关内容,最后还介绍了SparkSQL的相关内容。
2906 0