1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

分布式 storm hadoop 数据处理 数据流 数据仓库 系统环境 电商 Image 弹性伸缩 spark 对象存储 e-mapreduce EMR 大数据分析

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。

大数据 线程 Image spark 开源大数据 磁盘

从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践

本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面:实时计算的痛点、Saber 的平台演进、结合 AI 的案例实践、未来的发展与思考。

大数据 redis 架构 hbase SQL Apache 数据处理 集群 spark 流计算 flink 实时计算

Maxcompute Spark作业管控利器—Cupid Console

Cupid Console是MaxCompute客户端 0.33.1 及更新版本新增的一个插件,下载MaxCompute客户端最新版本:https://github.com/aliyun/aliyun-odps-console/releases,配置好后,运行odpscmd,针对spark作业的管控,Cupid Console增加了一组spark的命令,可以通过运行help spark查看这些命令的用法。

odps spark aliyun list MaxCompute

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。

大数据 性能 spark 开源大数据 schema update 数据管理

2019大数据技术公开课年度合集,带你看尽全年大数据精彩直播

在过去的一年中,大数据技术公开课共六季23次直播,内容涵盖阿里经济体的大数据典型场景最佳实践揭秘,企业级大数据平台的构建和思考,各行业客户大数据实战,阿里巴巴大数据产品特性讲解,技术大咖专访,开发者成长等内容。

大数据 数据仓库 钉钉 同步 淘宝 spark aliyun MaxCompute

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目,Hudi(Hoodie) 是 Uber 为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题,本文以中立的态度从高层次简单对比一下这两个数据湖产品的优缺点。

大数据 Apache spark scala string read 存储

《从开源到云原生,你不得不知的大数据实战》| 2020 大数据技术公开课第一季

亲爱的大数据开发者们,新年好!在过去的2019年中,MaxCompute开发者社区共举办了六季大数据技术公开课,也受到广大开发者们的认可和鼓励。2月份我们已经紧锣密鼓的筹备了新年的第一季大数据技术公开课—《从开源到云原生,你不得不知的大数据实战》,欢迎各位开发者们一起参加。

大数据 架构 SQL 钉钉 spark Hive 兼容性 sqoop MaxCompute

Spark源码阅读的正确打开方式

Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,吊打其他的大数据处理框架。 Spark至今只经历过1.x、2.x和3.x三个大版本的变化,在核心实现上,我们在Github能看到的最早的实现是0.5版本,这个版本只有1万多行代码,就把Spark的核心功能实现了。

分布式 大数据 源码 集群 内存管理 Image spark

大数据总纲 | 大数据方向学习面试知识图谱

愿读到这篇文章的技术人早日明白并且脱离技术本身,早登彼岸。一切技术最终只是雕虫小技。 大纲 本系列主题是大数据开发面试指南,旨在为大家提供一个大数据学习的基本路线,完善数据开发的技术栈,以及我们面试一个大数据开发岗位的时候,哪些东西是重点考察的,这些公司更希望面试者具备哪些技能。

云栖社区 分布式 大数据 架构 算法 java hbase hadoop SQL 线程 集群 消息中间件 spark Hive 知识图谱

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

本文主要从设计出发点、功能支持、性能等方面对比了Delta、Hudi、Iceberg 三个 data lake 方案

大数据 性能 spark bloomfilter schema update 数据管理 Delta Spark, Hudi ,Iceberg

为什么说Java仍将是未来的主导语言?

Java 是一门通用型编程语言,由 Sun 微系统公司(后被甲骨文收购)于 1995 年推出。尽管 Java 已经 25 岁了,但仍然“宝刀未老”。

编程语言 分布式 大数据 java storm hadoop Apache web 测试 Image spark

小米流式平台架构演进与实践

小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。

大数据 架构 监控 消息队列 SQL 模块 数据处理 配置 平台架构 spark 流式计算 流计算 flink 实时计算 实时数仓

10年后,阿里给千万开源人写了一封信

年末将至,阿里巴巴开源技术委员会负责人贾扬清写了一封信,想要和热爱开源的你说一声:谢谢。未来,我们希望与更多开源人一起,用技术普惠世界。

大数据 Apache Image 钉钉 spark 开源大数据 分布式计算

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

大数据 SQL Apache Cache 数据分析 spark aliyun 开源大数据 EMR 存储

150
GO