尼不要逗了 + 关注

Spark on Kubernetes 的现状与挑战

发布时间:2019-08-02 10:27:46 浏览:471 评论 :0

云原生时代,Kubernetes 的重要性日益凸显,这篇文章以 Spark 为例来看一下大数据生态 on Kubernetes 生态的现状与挑战。

大数据 native 性能 Apache 集群 内存管理 spark Driver github

现代流式计算的基石:Google DataFlow

发布时间:2019-01-24 11:44:59 浏览:13089 评论 :0

0. 引言 今天这篇继续讲流式计算。毫无疑问,Apache Flink 和 Apache Spark (Structured Streaming)现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow 呢?Streaming Systems 这本书在分析 Fli...

大数据 架构 Apache 数据处理 Processing spark 流式计算 google session

分布式快照算法: Chandy-Lamport

发布时间:2019-01-24 11:37:30 浏览:19513 评论 :0

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?

分布式 大数据 算法 Algorithm 分布式系统 input