1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

本文主要从设计出发点、功能支持、性能等方面对比了Delta、Hudi、Iceberg 三个 data lake 方案

大数据 性能 spark bloomfilter schema update 数据管理 Delta Spark, Hudi ,Iceberg

为什么说Java仍将是未来的主导语言?

Java 是一门通用型编程语言,由 Sun 微系统公司(后被甲骨文收购)于 1995 年推出。尽管 Java 已经 25 岁了,但仍然“宝刀未老”。

编程语言 分布式 大数据 java storm hadoop Apache web 测试 Image spark

小米流式平台架构演进与实践

小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。

大数据 架构 监控 消息队列 SQL 模块 数据处理 配置 平台架构 spark 流式计算 流计算 flink 实时计算 实时数仓

10年后,阿里给千万开源人写了一封信

年末将至,阿里巴巴开源技术委员会负责人贾扬清写了一封信,想要和热爱开源的你说一声:谢谢。未来,我们希望与更多开源人一起,用技术普惠世界。

大数据 Apache Image 钉钉 spark 开源大数据 分布式计算

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

大数据 SQL Apache Cache 数据分析 spark aliyun 开源大数据 EMR 存储

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

大数据 SQL Apache Cache 数据分析 spark aliyun 开源大数据 EMR 存储

spark过节监控告警系统实现

保证过年期间自己对自己的应用了如执掌,一般公司都会有轮值人员,对于我们这些搞平台和线上应用的,至少要有春节应急预案。今天浪尖主要是分享一下关于在yarn上的spark 任务我们应该做哪些监控,如何监控。

监控 spark 开源大数据 string class unit

1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。

Apache 钉钉 spark aliyun EMR

E-MapReduce-3.24.0版本发行

信息摘要: 包括新增Delta、Flink独立集群(白名单发布)、支持TensorFlow on spark,以及多个组件版本升级适用客户: 全部客户版本/规格功能: 1、新增 Delta,2、新增Flink独立集群(白名单发布),其上新增Grafana、Prometheus和AlertManager3、支持TensorFlow on spark4、Presto升级至0.

集群 spark aliyun e-mapreduce html

日志服务(SLS)集成 Spark 流计算实战

日志服务集成 Spark 流式计算:使用Spark Streaming和Structured Streaming对采集到日志服务中的数据进行消费,计算并将结果写回到日志服务。

大数据 日志 日志服务 SLS LOG sdk spark aliyun 流计算 sparkstreaming 日志采集 日志处理 StructuredStreaming aliyun-log

Spark 数据倾斜及其解决方案

本文从数据倾斜的危害、现象、原因等方面,由浅入深阐述Spark数据倾斜及其解决方案。

大数据 reduce spark 解决方案 Shuffle 数据倾斜

Spark 数据倾斜及其解决方案

本文从数据倾斜的危害、现象、原因等方面,由浅入深阐述Spark数据倾斜及其解决方案。

reduce spark 解决方案 分布式系统

通过Spark Streaming作业处理Kafka数据

如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群,并运行Spark Streaming作业消费Kafka数据。

hadoop 安全组 集群 主机 Image 控制台 spark aliyun 开源大数据 e-mapreduce test html

相比Spark等传统模式,Flink 和 K8S是怎样的结合

Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理。大数据起源自批处理,Spark最初的定位就是改进Hadoop, 更快速的进行批处理。而Storm擅长的则是进行无状态的流计算(在无状态的流计算领域, 它的延迟是最小的), 进而出现的Flink则是Storm的下一代解决方案。

大数据 storm SQL 集群 控制台 spark 开源大数据 监控工具 流计算

151
GO