使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎

  1. 云栖社区>
  2. Cassandra+Spark社区>
  3. 博客>
  4. 正文

使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎

明惠 2019-06-04 15:27:39 浏览1799
展开阅读全文

Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。

Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的,但是支持 Java API。

Apache Cassandra 是分布式的 NoSQL 数据库。
在这篇文章中,我们将介绍如何通过这三个组件构建一个高扩展、容错的实时数据处理平台。

准备

在进行下面文章介绍之前,我们需要先创建好 Kafka 的主题以及 Cassandra 的相关表,具体如下:

在 Kafka 中创建名为 messages 的主题

$KAFKA_HOME$\bin\windows\kafka-topics.bat --create \

网友评论

登录后评论
0/500
评论
明惠
+ 关注
所属云栖号: Cassandra+Spark社区