Streaming System 第三章:Watermarks

  1. 云栖社区>
  2. 阿里云实时计算>
  3. 博客>
  4. 正文

Streaming System 第三章:Watermarks

小白薇薇 2018-12-27 14:22:44 浏览3592
展开阅读全文

简介

本章主要介绍鲁棒的处理乱序数据的核心概念,这些概念的运用使流处理系统超越批处理系统的关键所在。
本章我们从流计算系统的底层机制深入来探讨一下watermark。学习这些机制有助于我们更好理解和使用watermark。我们将讨论watermark如何生成,传播和影响输出结果的时间戳。我们还将解释,watermark如何保证结果的正确性。

本文由《Streaming System》一书第三章的提炼翻译而来,译者才疏学浅,如有错误,欢迎指正。转载请注明出处,侵权必究。

定义

对任何一个持续输入和输出数据的管道来说,我们希望知道如何判断事件时间窗口的结束。窗口结束之后,不会再有这个窗口的数据到来。
判断事件事件窗口结束的第一种方式是,按照处理事件来判断。但是真实世界中,处理事件一定比事件时间晚,并且由于各种原因导致的数据乱序问题,会导致数据进入

网友评论

登录后评论
0/500
评论
小白薇薇
+ 关注
所属云栖号: 阿里云实时计算