云栖问答

这里有来自阿里的技术牛人,为你解决技术难题。

Flink中一个作业中的多个作业或多个管道

我有一个用例,我希望在Flink上运行2个独立的处理流程。所以2流看起来像 Source1 - > operator1 - > Sink1 Source2 - > operator2 - > Sink2 我想为两个流重用相同的Flink集群。我可以想到以两种方式做到这一点:

flink解析复杂protobuf,注册成table遇到问题

目标:kafka protobuf--》row--》table--》sql--》hdfs。问题:protobuf是嵌套结构,转成row时,制定type出现问题。第一步:自定义反序列化方式,将protobuf转成row第二步:for循环放入row第三步:指定字段name和type时不生效因为proto

spark streaming job运行卡住

问题 虚拟机中运行sparkStreaming job一段时间后,偶尔会卡住, 过一段时间就恢复, 需要定位原因解决 背景 1.sparkStreaming消费kafka数据, 开启反压机制, 将接收每一条kafka消息(json串)转换为对象后, 再使用Phoenix存入hbase; 2.有三台

本地编译flink1.6 1.7都不过,有个 flink-MapR 有问题

本地编译flink1.6 1.7都不过,有个 flink-MapR 有问题

[@徐雷frank][¥20]多大的数据量适合MongoDB?

多大的数据量适合MongoDB?

实时计算结果写入datahub有延迟

将实时计算的结果写入datahub的时候不稳定,有时候会有比较大的延迟,但是如果结果写入RDS就很快,请问如何解决?

为什么用phoenix建表后,插入的数据是二进制编码的

为什么用phoenix建表后,插入的数据是二进制编码的?

我想问下,keyby的时候不同key可以配权重吗?分到task上的流量不均衡怎么解决呀?

我想问下,keyby的时候不同key可以配权重吗?分到task上的流量不均衡怎么解决呀?

spark如何保证woker上 executor中运行的task不会太多(如果同时提交很多作业)

【spark 任务调度问题求助】[问题描述]).spark如何保证woker上 executor中运行的task不会太多 (如果同时提交很多作业)).org.apache.spark.scheduler.TaskSchedulerImpl.resourceOffers,方法中拿到排序后的所有已提交的

spark如何保证woker上 executor中运行的task不会太多(如果同时提交很多作业)

【spark 任务调度问题求助】[问题描述]).spark如何保证woker上 executor中运行的task不会太多 (如果同时提交很多作业)).org.apache.spark.scheduler.TaskSchedulerImpl.resourceOffers,方法中拿到排序后的所有已提交的

Spark Frameless with Column Renamed 嵌套字段

假设我有以下代码 case class MyTypeInt(a: String, b: MyType2)case class MyType2(v: Int)case class MyTypeLong(a: String, b: MyType3)case class MyType3(v: Long)

开发中用Flink State遇到性能瓶颈不知道原因在哪,求解!!!!

将数据都存入state中发生反压,经过了三种方法改动,临时选择将少量数据存在内存中,但是不解决问题,求解原因是什么 通过state机制将数据存储到flink state中,实践中发现由于数据量较大实时更新state状态,对象序列化时间较长,会导致反压,暂未找到避免序列化方案; 不能全量存数据,采

spark操作mongodb遇到的问题

com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast null into a StringType

Hadoop集群监控工具

最近集群正在做升级,之前规模较小,基本没用什么集群监控的软件(用了一段时间的monit,发现还是不太好用,不直观——非技术人员表示看不懂,哎),现在集群规模扩大,命令行实在是有点操作不过来,请问一下有没有什么比较好的Hadoop集群监控的推荐,主要的可能就是Hadoop的组件监控(hbase,HDF

[@小川游鱼][¥20]在校学生,想做大数据开发,学python还是JAVA

本人大四,秋季校招求职数据分析,结果不满意。想转大数据相关开发岗位。是学JAVA还是python好。python不太好找工作,个人倾向于学JAVA,春招找JAVA相关工作,之后沉淀转大数据,这样合理吗,还有求推荐JAVA学习路线及相关资料🙏🙏🙏

在将table的查询结果写到HDFS上,StreamingFileSink使用疑惑

将table的查询结果写到hdfs上,使用StreamingFileSink,但是在使用的过程中有几点疑惑:(1)将查询结果转化为DataStream的时候,该使用什么类型?用DataStream是否合适? 转化为DataStream的话上面得代码写的是否正确?(2)将上面的DataStream写

Flink ValueState<JSONObject> checkpoint失败,导致状态重置

问题 想用flink 的valueState 加上ttl的特性来做中间状态的存储,但是发现假如直接用ValueState来保存中间状态是没问题的,但是假如加上TTL的特性之后checkpoint就失败了,导致无法使用。 代码示例 报错信息 debug 这个会不为2,导致checkpoint

jark 0人回复 6天前 12-05 20:09

社区同学提醒,一护:这个问题最新版应该已经解了,是因为ttl state的序列化器在duplicate的时候少传了一个参数 iss…更多>

全量备份的周期是多久呢?

目前最长时间 4天。

备份恢复可以支持到表级别么

目前支持吗?

hbase通过快照跨集群备份有什么优缺点呢?

全量和实时方面的。

69
GO

排行榜

名次 昵称 回答数
1 spark小能手 58
2 徐雷frank 12
3 flink小助手 8
4 xwaby 7
5 1942138147735020 2
6 talishboy 2
7 徐前进 1
8 思锐视觉 1
9 boliyax 1
10 209255339579207201 1
名次 昵称 回答数
1 spark小能手 166
2 flink小助手 91
3 xwaby 46
4 徐雷frank 45
5 无影随想zju 27
6 wangccsy 21
7 talishboy 19
8 搞么罗 15
9 云攻略小攻 12
10 helloworld0001 8
名次 昵称 回答数
1 iot小能手 241
2 xwaby 194
3 叩薇168786248 191
4 spark小能手 166
5 flink小助手 140
6 aoteman675 140
7 徐雷frank 139
8 xumaojun 102
9 tkimi 101
10 微168786248 93