flink小助手 + 关注
flink小助手会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关flink的问题及回答。

flink小助手 参与了问答:

“先调用 initializeState社区不建议使用这个类了,已经 deprecated 了,如果你用 ListCheckpointed 的话,注释里写的比较清楚”

flink小助手 参与了问答:

flink有没有这方面优化我用habse存储了每小时的统计结果,然后想统计一天的

hbase里数据太多了,api查询太慢。。我想问下flink有没有这方面优化我用habse存储了每小时的统计结果,然后想统计一天的

“每小时的统计结果是用什么算出来的?如果你用flink的state都不需要存储在hbase”

flink小助手 参与了问答:

flink有没有更好的方式从hbase拿数据?

flink有没有更好的方式从hbase拿数据?

“hbase拿数据只有api或者snapshot两条路。但你可以考虑一下这些数据是不是直接存在flink的状态里。查询量不大可以用queryable state,大的话可以同步一份到hbase”

flink小助手 参与了问答:

Apache Flink:自定义触发器意外行为

Apache Flink:自定义触发器意外行为我有一个DataStream,它由一个事件组成,该事件具有一个表示一批生成元素的属性。该属性,我们称之为'batchNumber',在我从同一生产批次中摄...

“您确定要通过event.lunum键入流吗?如果你期望每个不同的lunum值大约有200个事件,这是有道理的。但是如果每个lunum值只有一个事件,那就可以解释你所看到的行为。 此外,您确定您的活动正...查看全部>

flink小助手 参与了问答:

Flink键控状态清理增量rocksdb检查点

Flink键控状态清理增量rocksdb检查点我有一个flink工作,可以在rocksdb后端保持大键控状态。我们正在使用增量检查点策略。随着时间的推移,状态的规模成为一个问题。我们检查了状态ttl解...

“经常使用的一种方法是在某种ProcessFunction中操纵状态,并在在不需要时使用计时器来清除状态 - 例如,如果它已经被访问了几个小时。ProcessFunctions可以同时具有事件时间和处理...查看全部>

flink小助手 参与了问答:

flink和spark的最大区别是什么来着?就是双重groupby报错的那段

转自钉钉群21789141:flink和spark的最大区别是什么来着?就是双重groupby报错的那段

“性能对比 首先它们都可以基于内存计算框架进行实时计算,所以都拥有非常好的计算性能。经过测试,Flink计算性能上略好。 测试环境: CPU:7000个;内存:单机128GB;版本:Hadoop 2.3...查看全部>

flink小助手 参与了问答:

Apache Flink - 启用连接排序

我注意到Apache Flink没有优化表连接的顺序。目前,它保留了用户指定的连接顺序(基本上,它按字面顺序进行查询)。我想Apache Calcite可以优化连接的顺序,但由于某些原因,这些规则在A...

“未启用加入重新排序,因为Flink无法很好地处理统计信息。重新排序连接没有一些准确的基数估计基本上是赌博。因此,禁用连接重新排序,并按用户提供的顺序连接表。这给出了确定性和可控制的行为。 但是,你可以...查看全部>

flink小助手 参与了问答:

当yarn崩溃时恢复Flink

我正在EMR上运行一个Yarn3节点集群(1个Master 2 Core节点)。我使用的是1.6.0。我启用了检查指向(rocksdb),写入S3。检查指向似乎在其他测试中正常工作。在主节点上Yarn...

“您指的检查点s3://bucket/kinesis-pipeline-checkpoint/a8a9ceb95845c3ea9833e025b5771470不包含有效_metadata文件。这表示此检...查看全部>

flink小助手 参与了问答:

我可以使用KSQL生成处理时间超时吗?

我试图使用KSQL在一个时间限制内做任何处理,并在该时间限制内获得结果。有关使用Apache Beam说明的相同想法,请参阅“处理时间计时器”下的使用Apache Beam的及时(和有状态)处理。 鉴...

“看看Kafka Streams punctuate()的Processor API中的功能,这可能就是您正在寻找的功能。您可以将punctuate()与stream-time(默认值:event-ti...查看全部>

flink小助手 参与了问答:

Flink:如何通过flink代码设置任务管理器属性

我收到错误“引起:java.io.IOException:网络缓冲区数量不足:需要30个,但只有25个可用。网络缓冲区总数目前设置为12945个32768字节。您可以增加此数量设置配置键'taskma...

“执行DataSet作业时,您需要调用ExecutionEnvironment.createLocalEnvironment(Configuration configuration)以传递自定义Conf...查看全部>

flink小助手 参与了问答:

有什么方法增加任务管理器的数量而不是每个任务管理器的任务槽?

存在两个影响任务可用资源量的维度: jobmanager的数量TaskManager可用的任务槽数。每个TaskManager有一个插槽意味着每个任务组在一个单独的JVM中运行(例如,可以在一个单独的...

“没有最佳配置,因为通常无法定义“最佳”。每个TM具有单个插槽的配置提供了良好的隔离,并且通常更易于管理和推理。 如果您运行多个作业,则多插槽配置可能会将不同作业的任务计划为一个TM。如果TM发生故障,...查看全部>

flink小助手 参与了问答:

Apache Flink:有没有办法在可查询状态返回到客户端之前进行转换?

在使用可查询状态时,必须检索与键关联的整个状态值。我希望能够在返回到客户端之前将TaskManager上的值转换,即在QueryableStateClientProxy或QueryableStateS...

“在当前版本(Flink 1.7.0)中,在返回之前无法修改获取的值。AFAIK,此功能也不在路线图上。”

flink小助手 参与了问答:

Apache Flink:使用filter()或split()来分割流?

我有一个来自Kafka的DataStream,它对MyModel中的一个字段有两个可能的值。MyModel是一个pojo,其中包含来自Kafka的消息解析的特定于域的字段。 DataStream st...

“两种方法的表现几乎相同。在内部,split()操作员也会分叉流并应用过滤器。 第三个选项是Side Outputs。侧输出可能有一些好处,例如不同的输出数据类型。此外,过滤条件仅对侧输出进行一次评估。”

flink小助手 参与了问答:

在Apache Flink中手动更新状态的最佳方法是什么?

我在股票市场项目中使用Apache Flink来计算当前的价格变化。公式是 price_change = (current_price - previous_close_price) / previo...

“建议在#4上使用一个变体: 有两个来源,一个仅用于收盘价,另一个用于交易流。通过安全性键入两个流,并将它们与CoProcessFunction连接。将previous_close_price存储在Co...查看全部>

flink小助手 参与了问答:

OrcTableSource是否支持S3文件系统?

我使用OrcTableSource从云对象存储(IBM COS)获取Orc文件时遇到了一些麻烦,代码片段如下所示: OrcTableSource soORCTableSource = OrcTable...

“问题是Flink OrcRowInputFormat使用两个不同的文件系统:一个用于生成输入分割,另一个用于读取实际的输入分割。对于前者,它使用Flink的FileSystem抽象,而后者则使用Had...查看全部>

flink小助手 参与了问答:

使用Flink为DateStreamSource <List <T >>分配水印的正确方法

我有一个持续的JSONArray数据产生到Kafka主题,我想处理具有EventTime特征的记录。为了达到这个目标,我必须为包含在JSONArray中的每个记录分配水印。 我没有找到实现这一目标的便...

“问题是您正在将keyBy和window操作应用于convertToPojo流,而不是具有时间戳和水印的流(您没有将其分配给变量)。 如果您或多或少地编写代码,它应该工作: listDataStream...查看全部>

flink小助手 参与了问答:

将Apache Flink中的关系数据存储为状态并通过属性查询

我有一个包含表T1(id,name,age)和T2(id,subject)的数据库。Flink使用诸如debezium之类的东西从事件流接收来自数据库的所有更新。这些表被彼此相关的和所需的数据可以由被...

“我的理解是你连接T1和T2,并存储一些表示(在MapState中)来自这两个流的键控状态的数据,由id键入。听起来T1和T2随着时间的推移而发展,并且您希望能够通过指定名称随时以交互方式查询联接。 一...查看全部>

flink小助手 参与了问答:

启动新的Flink作业时“无法分配内存”

我们在3 VM集群上运行Flink。每个VM大约有40个内存。每天我们停止一些工作并开始新的工作。几天后,以“无法分配内存”错误拒绝开始新作业: OpenJDK 64位服务器VM警告:INFO:os ...

“在独立模式下,Flink可能无法按您的意愿释放资源。例如,资源由实例中的静态member保留。 强烈建议使用YARN或K8作为运行时环境。”

flink小助手 参与了问答:

Flink和恢复中的事件处理顺序

我正在研究Flink一个多星期了。我们正在处理来自Kafka的事件,我们希望事件属于特定对象id,需要按事件时间顺序处理。到目前为止,我的研究告诉我,我应该使用keyby和timeWindows,我的...

“您将需要使用keyBy(objectId)按对象ID对流进行分区。 如果必须按事件时间对流进行排序,则有几个选项。您可以使用窗口创建在ProcessWindowFunction中排序(批量)的批量事件...查看全部>

flink小助手 参与了问答:

Flink:Jobmanager UI中设置的并行性如何与任务槽相关?

假设我有8个任务管理器,有16个任务槽。如果我使用Jobmanager UI提交作业并将并行度设置为8,那么我是否只使用8个任务槽? 如果我有8个任务管理器有8个插槽,并以8的并行度提交相同的作业怎么...

“Flink群集中的任务槽总数定义了最大并行度,但使用的槽数可能超过实际并行度。”
3
flink小助手会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关flink的问题及回答。

感兴趣or擅长的领域:

暂无
更多>
更多>
suzg110
suzg110
文章:0丨 粉丝:0丨 话题:0
eranchang
eranchang
文章:0丨 粉丝:0丨 话题:0
纸鸢shine
纸鸢shine
文章:0丨 粉丝:0丨 话题:0
1328605265125696
1328605265125696
文章:0丨 粉丝:0丨 话题:0
hi_bo
hi_bo
文章:0丨 粉丝:0丨 话题:0
游客mcou5nktksgpw
游客mcou5nktksgpw
文章:0丨 粉丝:0丨 话题:0