1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

数据湖有新解!Apache Hudi 与 Apache Flink 集成

纵观大数据领域成熟、活跃、有生命力的框架,无一不是设计优雅,能与其他框架相互融合,彼此借力,各专所长。

大数据 性能 Apache spark API 分布式计算 list 数据类型

Serverless Spark的弹性利器 - EMR Shuffle Service

###背景与动机 ####计算存储分离下的刚需 计算存储分离是云原生的重要特征。通常来讲,计算是CPU密集型,存储是IO密集型,他们对于硬件配置的需求是不同的。在传统计算存储混合的架构中,为了兼顾计算和存储,CPU和存储设备都不能太差,因此牺牲了灵活性,提高了成本。

架构 性能 配置 reduce Image spark EMR ESS 磁盘 service 存储

云原生计算引擎挑战与解决方案

云原生背景介绍与思考 图一是基于ECS底座的EMR架构,这是一套非常完整的开源大数据生态,也是近10年来每个数字化企业必不可少的开源大数据解决方案。主要分为以下几层: ECS物理资源层,也就是Iaas层 数据接入层,例如实时的Kafka,离线的Sqoop 存储层,包括HDFS和OSS,以及EMR自研的缓存加速JindoFS 计算引擎层,包括熟知的Spark,Presto、Flink等这些计算引擎 数据应用层,如阿里自研的Dataworks、PAI以及开源的Zeppelin,Jupyter 每一层都有比较多的开源组件与之对应,这些层级组成了最经典的大数据解决方案,也就是EMR的架构。

大数据 架构 性能 集群 容器 云盘 spark 解决方案 开源大数据 EMR service 存储

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

什么是CDC Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。

性能 SQL Image 同步 spark 解决方案 e-mapreduce 数据同步 test binlog 存储

159
GO