Flink Checkpoint 问题排查实用指南

  1. 云栖社区>
  2. 阿里云实时计算>
  3. 博客>
  4. 正文

Flink Checkpoint 问题排查实用指南

巴蜀真人 2019-09-16 17:01:06 浏览3078
展开阅读全文

作者:邱从贤(山智)

在 Flink 中,状态可靠性保证由 Checkpoint 支持,当作业出现 failover 的情况下,Flink 会从最近成功的 Checkpoint 恢复。在实际情况中,我们可能会遇到 Checkpoint 失败,或者 Checkpoint 慢的情况,本文会统一聊一聊 Flink 中 Checkpoint 异常的情况(包括失败和慢),以及可能的原因和排查思路。

1. Checkpoint 流程简介

首先我们需要了解 Flink 中 Checkpoint 的整个流程是怎样的,在了解整个流程之后,我们才能在出问题的时候,更好的进行定位分析。

flink_checkpoint.jpg

从上图我们可以知道,Flink 的 Checkpoint 包括如下几个部分:

  • JM trigger checkpoint
  • Source 收到 trigger checkpoint

网友评论

登录后评论
0/500
评论
巴蜀真人
+ 关注
所属云栖号: 阿里云实时计算