Apache Spark中国技术社区 + 关注 E-MapReduce

使用EMR-Kafka Connect进行数据迁移

本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移,使用distributed模式。

云栖社区 系统软件 移动开发与客户端 Json Apache 数据库 配置 集群 Image 数据迁移 同步 流式计算 EMR 数据同步 安全问道

玩转阿里云EMR三部曲-入门篇

优异的自动化创建集群让小伙伴可以专心于业务开发,不再纠结于hadoop版本,spark版本,甚至某些jar版本引发的各种奇怪问题,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小时,也可以3个节点执行5小时,非常灵活。

nginx 编程语言 系统研发与运维 移动开发与客户端 网络与数据通信 大数据 架构 OSS hdfs hadoop 公共云 配置 spark EMR

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。

云栖社区 系统软件 系统研发与运维 网络与数据通信 linux 深度学习 大数据 性能 Apache 数据仓库 Cache Image spark 分布式计算 安全问道

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

分布式 架构 线程 spark pandas 分布式计算 容灾 Mapreduce

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

在Spark中,Join通常是代价比较大,尤其是shuffle join。Relational Cache将反范式化表(即关联后的大表)保存为relational cache,便可以使用cache重写执行计划,提高查询效率。

Cache spark EMR 多维分析 物化视图

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网...

性能 spark e-mapreduce EMR sparksql RuntimeFilter

现代流式计算的基石:Google DataFlow

0. 引言 今天这篇继续讲流式计算。毫无疑问,Apache Flink 和 Apache Spark (Structured Streaming)现在是实时流计算领域的两个最火热的话题了。那么为什么要介绍 Google Dataflow ...

大数据 架构 Apache 数据处理 Processing spark 流式计算 google session

分布式快照算法: Chandy-Lamport

Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快...

分布式 大数据 算法 Algorithm 分布式系统 input

Spark in action on Kubernetes - Playground搭建与架构浅析

前言Spark是非常流行的大数据处理引擎,数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理,虽...

大数据 架构 集群 数据分析 spark Driver k8s

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程: 如何把 RDS 的 binlog 收集到 SLS。 如何通过 Spark Streaming 将 SL...

mysql hadoop 日志 SLS Apache 配置 集群 spark aliyun EMR binlog

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FP...

大数据 Apache 配置 容器 spark GPU