金竹 + 关注
Alibaba Senior technical expert And Apache Flink Committer.

Apache Flink 漫谈系列(15) - DataStream Connectors之Kafka

发布时间:2019-01-14 16:09:37 浏览:3539 评论 :3

聊什么 为了满足本系列读者的需求,在完成《Apache Flink 漫谈系列(14) - DataStream Connectors》之前,我先介绍一下Kafka在Apache Flink中的使用。所以本篇以一个简单的示例,向大家介绍在Apache Flink中如何使用Kafka。

java Apache API string Consumer charset zookeeper kafka Connector flink DataStream

Apache Flink 漫谈系列(13) - Table API 概述

发布时间:2019-01-08 14:06:18 浏览:2136 评论 :1

什么是Table API 在《Apache Flink 漫谈系列(08) - SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示: Apache Flink 针对不同的用户场景提供了三层用户API,最下层ProcessFunction API可以对State,Timer等复杂机制进行有效的控制,但用户使用的便捷性很弱,也就是说即使很简单统计逻辑,也要较多的代码开发。

SQL Apache 测试 API string 流计算 flink TableAPI

Apache Flink 漫谈系列(11) - Temporal Table JOIN

发布时间:2018-12-15 21:34:08 浏览:1753 评论 :1

SQL Apache Image string timestamp join flink

Apache Flink 漫谈系列(10) - JOIN LATERAL

发布时间:2018-12-02 16:33:55 浏览:1898 评论 :3

聊什么 上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。

SQL Apache Server flink

Apache Flink 漫谈系列(09) - JOIN 算子

发布时间:2018-11-23 19:17:21 浏览:2187 评论 :1

聊什么 在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的,那么再深思一下传统数据库为啥需要有JOIN算子呢?在实现原理上面Apache Flink内部实现和传统.

分布式系统与计算 mysql Apache 数据库 流计算 flink

Apache Flink 漫谈系列(08) - SQL概览

发布时间:2018-11-17 09:03:34 浏览:2842 评论 :3

SQL简述 SQL是Structured Query Language的缩写,最初是由美国计算机科学家Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期从 Early History of SQL 中了解关系模型后在IBM开发的。

SQL Apache 测试 string 流计算 flink

Apache Flink 漫谈系列(07) - 持续查询(Continuous Queries)

发布时间:2018-11-11 19:04:29 浏览:2915 评论 :4

实际问题 我们知道在流计算场景中,数据是源源不断的流入的,数据流永远不会结束,那么计算就永远不会结束,如果计算永远不会结束的话,那么计算结果何时输出呢?本篇将介绍Apache Flink利用持续查询来对流计算结果进行持续输出的实现原理。

分布式系统与计算 mysql SQL Apache 数据库 Image Create 数据存储 流计算 Flink,

Apache Flink 漫谈系列(06) - 流表对偶(duality)性

发布时间:2018-11-11 09:59:30 浏览:2329 评论 :0

实际问题 很多大数据计算产品,都对用户提供了SQL API,比如Hive, Spark, Flink等,那么SQL作为传统关系数据库的查询语言,是应用在批查询场景的。Hive和Spark本质上都是Batch的计算模式(在《Apache Flink 漫谈系列 - 概述》我们介绍过Spark是Micr.

分布式系统与计算 mysql SQL Apache Server session binlog Commit 流计算 flink

Apache Flink 漫谈系列(05) - Fault Tolerance

发布时间:2018-11-11 09:14:17 浏览:2273 评论 :0

实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。那么在计算过程中如果网络、机器等原因导致Task运行失败了,Apache Flink会如何处理呢?在 《Apache Flink 漫谈系列 - State》一篇中我们介绍了 Apache Flink 会利用State记录计算的状态,在Failover时候Task会根据State进行恢复。

分布式系统与计算 Apache 存储 流计算 fink

Apache Flink 漫谈系列(04) - State

发布时间:2018-11-11 09:05:59 浏览:3612 评论 :5

实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。

算法 分布式系统与计算 Apache source 存储 流计算 flink ApacheFlink

Apache Flink 漫谈系列(03) - Watermark

发布时间:2018-11-08 15:50:45 浏览:4149 评论 :1

实际问题(乱序) 在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有5秒的延时,也就是在实际时间的第1秒产生的数据有可能在第5秒中产生的数据之后到来(比如到Window处理节点).选具体某个delay的元素来说,假设在一个5秒的Tumble窗口(详见Window介绍章节),有一个EventTime是 11秒的数据,在第16秒时候到来了。

分布式系统与计算 Apache 数据流 Image source 流计算 flink Watermark

Apache Flink 漫谈系列(02) - 概述

发布时间:2018-11-08 15:42:43 浏览:4273 评论 :4

Apache Flink 的命脉 "命脉" 即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊Apache Flink的历史,不聊Apache Flink的架构,不聊Apache Flink的功能特性,我们用一句话聊聊什么是 Apache Flink 的命脉?我的答案是:Apache Flink 是以"批是流的特例"的认知进行系统设计的。

架构 分布式系统与计算 native SQL Apache 数据处理 数据流 Image alibaba 流计算 flink

Apache Flink 漫谈系列(01) - 序

发布时间:2018-11-08 15:19:39 浏览:3987 评论 :5

本人 孙金城,淘宝花名"金竹",阿里巴巴高级技术专家,Apache Flink Committer。目前就职于阿里巴巴计算平台事业部,自2015年以来一直投入于基于Apache Flink的设计研发工作。

大数据 架构 分布式系统与计算 Apache 模块 淘宝 流式计算 流计算 flink