解析SparkStreaming和Kafka集成的两种方式

  1. 云栖社区>
  2. Apache Spark中国技术社区>
  3. 博客>
  4. 正文

解析SparkStreaming和Kafka集成的两种方式

开源大数据EMR 2020-02-21 11:27:27 浏览522
展开阅读全文

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。

针对不同的spark、kafka版本,集成处理数据的方式分为两种:Receiver based Approach和Direct Approach,不同集成版本处理方式的支持,可参考下图:
image.png

Receiver based Approach

基于receiver的方式是使用kafka消费者高阶API实现的。
对于所有的receiver,它通过kafka接收的数据会被存储于spark的executors上,底层是写入BlockManager中,默认200ms生成一个block(通过配置参



网友评论

登录后评论
0/500
评论
开源大数据EMR
+ 关注
所属团队号: Apache Spark中国技术社区