jark + 关注
阿里巴巴计算平台事业部高级开发工程师

jark 发表了文章:

Apache Flink 1.9.0版本新功能介绍

发布时间:2019-09-09 15:03:26 浏览:704 回帖 :0

摘要:Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。目前,Apache Flink 1.9...

架构 SQL Apache API Hive 流计算 flink

jark 参与了问答:

我想问下,keyby的时候不同key可以配权重吗?分到task上的流量不均衡怎么解决呀?

我想问下,keyby的时候不同key可以配权重吗?分到task上的流量不均衡怎么解决呀?

“keyBy配不了权重。如果使用 DataStream.partitionCustom 可以自定义将 key 分到哪个 partition,但是 partitionCustom 之后接的 operato...查看全部>

jark 参与了问答:

Flink ValueState<JSONObject> checkpoint失败,导致状态重置

问题 想用flink 的valueState 加上ttl的特性来做中间状态的存储,但是发现假如直接用ValueState来保存中间状态是没问题的,但是假如加上TTL的特性之后checkpoint就失败...

“社区同学提醒,一护:这个问题最新版应该已经解了,是因为ttl state的序列化器在duplicate的时候少传了一个参数 issue 链接:https://issues.apache.org/jir...查看全部>

jark 参与了问答:

在将table的查询结果写到HDFS上,StreamingFileSink使用疑惑

将table的查询结果写到hdfs上,使用StreamingFileSink,但是在使用的过程中有几点疑惑:(1)将查询结果转化为DataStream的时候,该使用什么类型?用DataStream是否...

“window 不输出的还有一个可能是watermark 有问题,即 watermark 一直没有前进。 你可以进 watermark 页面看看 watermark 是否正常。”

jark 发表了文章:

Flink SQL 核心解密 —— 提升吞吐的利器 MicroBatch

发布时间:2018-12-05 15:08:18 浏览:1844 回帖 :1

之前我们在 Flink SQL 中支持了 MiniBatch, 在支持高吞吐场景发挥了重要作用。今年我们在 Flink SQL 性能优化中一项重要的改进就是升级了微批模型,我们称之为 MicroBat...

SQL 配置 性能测试 aggregate 流计算 flink

jark 参与了问答:

将table 查询结果写到csvtablesink,文件大小始终为0

在job ui上看任务是跑起来的,也有数组生成对应的hdfs上的文件大小size一直为0

“CsvTableSink 用在无限流的场景下的话,不会马上写出去,会 buffer 起来,在结束的时候会 flush 出去。所以一般常用在测试场景。在真实线上的话,建议用 StreamingFileS...查看全部>

jark 参与了问答:

DataStream[POJO]转table如何指定.rowtime字段?

click_info的类型是DataStream类型的;Message我自己定义的POJO;然后由DataStream转换为table的时候指定字段的代码如下:转换为table之后在table上执行w...

“你的 rowtime 定义的没有问题,window 写法也没问题, alias 也没有问题。问题出在你在最后的 select 中,用了 over window 语法, 也就是 clicks.sum o...查看全部>

jark 参与了问答:

Flink SQL相关问题

Flink SQL中的DATE_FORMAT()函数中,如何将bigint转换为timestamp类型?用cast转换失败,有大佬遇见这种问题么?

“据我所知,Flink SQL目前 没有能直接将 bigint 转成 timestamp 的内置函数, 需要自己实现 UDF 。”

jark 参与了问答:

flink用什么工具开发?

flink用什么工具开发?用eclipse好像有很多问题?

“Flink 社区的开发者基本上清一色的都是用的 IntelliJ IDEA , eclipse 没有 IDEA 好用,而且它的 scala 插件有些问题。”

jark 参与了问答:

关于flinkstream 时间窗体的事件分割方式及使用问题

在使用窗体进行流分割计算的时候,通过将stream注册成表可以拿到proctime.proctime, rowtime.rowtime 不同的时间,完成时间窗体的计算,如果对于这个动态表进行多段处理,...

“join 之后 watermark(和 rowtime) 都会丢失,后面就无法再接 window aggregate了。你可以尝试使用 window-join, https://ci.apache.o...查看全部>

jark 发表了文章:

Flink 原理与实现:如何处理反压问题

发布时间:2016-11-24 09:50:06 浏览:8892 回帖 :0

流处理系统需要能优雅地处理反压(backpressure)问题。反压通常产生于这样的场景:短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压,例如,垃圾回收停顿可能会导...

分布式系统与计算 监控 线程 阿里技术协会 数据流 内存管理 pipeline netty flink

jark 发表了文章:

Flink 原理与实现:Window 机制

发布时间:2016-11-24 09:50:05 浏览:8505 回帖 :3

Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch...

分布式系统与计算 函数 阿里技术协会 http 数据流 API session timestamp flink

jark 发表了文章:

Flink 原理与实现:理解 Flink 中的计算资源

发布时间:2016-11-24 09:50:04 浏览:11458 回帖 :3

本文所讨论的计算资源是指用来执行 Task 的资源,是一个逻辑概念。本文会介绍 Flink 计算资源相关的一些核心概念,如:Slot、SlotSharingGroup、CoLocationGroup、...

分布式系统与计算 线程 阿里技术协会 http 数据流 source flink

jark 发表了文章:

Flink 原理与实现:Session Window

发布时间:2016-11-24 09:50:02 浏览:5140 回帖 :0

在[上一篇文章:Window机制](http://wuchong.me/blog/2016/05/25/flink-internals-window-mechanism/)中,我们介绍了窗口的概念和底...

分布式系统与计算 阿里技术协会 http session flink

jark 发表了文章:

Flink 原理与实现:架构和拓扑概览

发布时间:2016-07-19 13:41:42 浏览:5109 回帖 :1

## 架构 要了解一个系统,一般都是从架构开始。我们关心的问题是:系统部署成功后各个节点都启动了哪些服务,各个服务之间又是怎么交互和协调的。下方是 Flink 集群启动后架构图。 ![](...

分布式系统与计算 阿里技术协会 flink

jark 发表了文章:

Flink 原理与实现:内存管理

发布时间:2016-07-19 13:41:40 浏览:6500 回帖 :1

如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中,这就不得不面对 JVM 存在的几...

分布式系统与计算 阿里技术协会 flink

个人博客: http://wuchong.me

感兴趣or擅长的领域:

更多>
apache_flink
apache_flink
文章:13丨 粉丝:21768丨 话题:0
更多>
Bear熊叔
Bear熊叔
文章:0丨 粉丝:0丨 话题:0
jmx_bigdata
jmx_bigdata
文章:0丨 粉丝:0丨 话题:0
sbhh
sbhh
文章:0丨 粉丝:0丨 话题:0
小智s
小智s
文章:0丨 粉丝:0丨 话题:0
游客lhqln2ctpwzxc
游客lhqln2ctpwzxc
文章:0丨 粉丝:0丨 话题:0
1306216299867556
1306216299867556
文章:0丨 粉丝:0丨 话题:0