Apache Flink 漫谈系列(03) - Watermark

  1. 云栖社区>
  2. 阿里云实时计算>
  3. 博客>
  4. 正文

Apache Flink 漫谈系列(03) - Watermark

金竹 2018-11-08 15:50:45 浏览5773
展开阅读全文

实际问题(乱序)

在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有5秒的延时,也就是在实际时间的第1秒产生的数据有可能在第5秒中产生的数据之后到来(比如到Window处理节点).选具体某个delay的元素来说,假设在一个5秒的Tumble窗口(详见Window介绍章节),有一个EventTime是 11秒的数据,在第16秒时候到来了。图示第11秒的数据,在16秒到来了,如下图:
image

那么对于一个Count聚合的Tumble(5s)的window,上面的情况如何处理才能window2=4,window3=2 呢?

Apache Flink的时间类型

开篇我们描述的问题是一个很常见的Time

网友评论

登录后评论
0/500
评论
金竹
+ 关注
所属云栖号: 阿里云实时计算