1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

浅析Hive/Spark SQL读文件时的输入任务划分

本文最后留个思考题给读者们:如何设置参数彻底关闭Spark SQL data source表的文件合并? 积极回答问题即可获得社区礼物。

大数据 hadoop SQL spark scala 开源大数据 Hive file

使用 Jupiter Notebook 运行 Delta Lake 入门教程

因为官方教程是基于商业软件 Databricks Community Edition 构建,虽然教程中使用的软件特性都是开源 Delta Lake 版本所具备的,但是考虑到国内的网络环境,注册和使用 Databricks Community Edition 门槛较高。

大数据 spark 开源大数据 开发环境 schema update

浅析Hive/Spark SQL读文件时的输入任务划分

Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。SQL是非过程化语言,我们写SQL的时候并不能控制具体的执行过程,它们依赖执行引擎决定。

大数据 hadoop SQL 开源 spark scala EMR Hive file big data sparksql

阿里云服务器实例规格怎么选/阿里云所有实例规格适用场景汇总

当前国内提到上云服务器用户首先想到阿里云,可见阿里云在国内的名气如此之大。

深度学习 分布式 大数据 服务器 数据库 语音识别 集群 数据分析 阿里云服务器 spark 高性能 GPU 云服务器ECS

使用 Jupiter Notebook 运行 Delta Lake 入门教程

本文通过 jupyter notebook 工具演示了 Delta Lake 的官方教程

python SQL spark 开发环境 schema update

Spark on Kubernetes与阿里云的深度整合

将Spark on Kubernetes与阿里云深度整合,设计一个开箱即用的Spark on Kubernetes镜像。

云栖社区 数据存储与数据库 系统研发与运维 监控 OSS hdfs 日志 阿里技术协会 镜像 集群 弹性伸缩 spark 对象存储 脚本 kubernete

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

分布式 storm hadoop 数据处理 数据流 数据仓库 系统环境 电商 Image 弹性伸缩 spark 对象存储 e-mapreduce EMR 大数据分析

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。

大数据 线程 Image spark 开源大数据 磁盘

从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践

本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面:实时计算的痛点、Saber 的平台演进、结合 AI 的案例实践、未来的发展与思考。

大数据 redis 架构 hbase SQL Apache 数据处理 集群 spark 流计算 flink 实时计算

Maxcompute Spark作业管控利器—Cupid Console

Cupid Console是MaxCompute客户端 0.33.1 及更新版本新增的一个插件,下载MaxCompute客户端最新版本:https://github.com/aliyun/aliyun-odps-console/releases,配置好后,运行odpscmd,针对spark作业的管控,Cupid Console增加了一组spark的命令,可以通过运行help spark查看这些命令的用法。

odps spark aliyun list MaxCompute

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲,三者均为 Data Lake 的数据存储中间层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。

大数据 性能 spark 开源大数据 schema update 数据管理

2019大数据技术公开课年度合集,带你看尽全年大数据精彩直播

在过去的一年中,大数据技术公开课共六季23次直播,内容涵盖阿里经济体的大数据典型场景最佳实践揭秘,企业级大数据平台的构建和思考,各行业客户大数据实战,阿里巴巴大数据产品特性讲解,技术大咖专访,开发者成长等内容。

大数据 数据仓库 钉钉 同步 淘宝 spark aliyun MaxCompute

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目,Hudi(Hoodie) 是 Uber 为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题,本文以中立的态度从高层次简单对比一下这两个数据湖产品的优缺点。

大数据 Apache spark scala string read 存储

《从开源到云原生,你不得不知的大数据实战》| 2020 大数据技术公开课第一季

亲爱的大数据开发者们,新年好!在过去的2019年中,MaxCompute开发者社区共举办了六季大数据技术公开课,也受到广大开发者们的认可和鼓励。2月份我们已经紧锣密鼓的筹备了新年的第一季大数据技术公开课—《从开源到云原生,你不得不知的大数据实战》,欢迎各位开发者们一起参加。

大数据 架构 SQL 钉钉 spark Hive 兼容性 sqoop MaxCompute

Spark源码阅读的正确打开方式

Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,吊打其他的大数据处理框架。 Spark至今只经历过1.x、2.x和3.x三个大版本的变化,在核心实现上,我们在Github能看到的最早的实现是0.5版本,这个版本只有1万多行代码,就把Spark的核心功能实现了。

分布式 大数据 源码 集群 内存管理 Image spark

大数据总纲 | 大数据方向学习面试知识图谱

愿读到这篇文章的技术人早日明白并且脱离技术本身,早登彼岸。一切技术最终只是雕虫小技。 大纲 本系列主题是大数据开发面试指南,旨在为大家提供一个大数据学习的基本路线,完善数据开发的技术栈,以及我们面试一个大数据开发岗位的时候,哪些东西是重点考察的,这些公司更希望面试者具备哪些技能。

云栖社区 分布式 大数据 架构 算法 java hbase hadoop SQL 线程 集群 消息中间件 spark Hive 知识图谱

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

本文主要从设计出发点、功能支持、性能等方面对比了Delta、Hudi、Iceberg 三个 data lake 方案

大数据 性能 spark bloomfilter schema update 数据管理 Delta Spark, Hudi ,Iceberg

为什么说Java仍将是未来的主导语言?

Java 是一门通用型编程语言,由 Sun 微系统公司(后被甲骨文收购)于 1995 年推出。尽管 Java 已经 25 岁了,但仍然“宝刀未老”。

编程语言 分布式 大数据 java storm hadoop Apache web 测试 Image spark

150
GO