1. 阿里云>
  2. 云栖社区>
  3. 主题地图>
  4. S>
  5. Spark2

当前主题:Spark2

Maxcompute Spark作业管控利器—Cupid Console

一、背景     Maxcompute平台目前可以支持运行Spark作业,Spark作业依托于Maxcompute的Cupid平台可以按照社区兼容的方式提交到Maxcompute上运行,支持读写Maxcompute表,和Maxcompute上原有的SQL/M

阅读全文

环形缓冲区-Hadoop Shuffle过程中的利器

这篇文章来自一个读者在面试过程中的一个问题,Hadoop在shuffle过程中使用了一个数据结构-环形缓冲区。 环形队列是在实际编程极为有用的数据结构,它是一个首尾相连的FIFO的数据结构,采用数组的线性空间,数据组织简单。能很快知道队列是否满为空。能以很快

阅读全文

如何使用Dataphin助力高效业务研发

作者:彭静 更多内容详见数据中台官网 https://dp.alibaba.com 导语:Dataphin·通用研发-实时&离线技能介绍 随着企业业务的不断扩展,程序员GG们通常会遇到老板提出的各种各样的需求-- • 老板A:“这个任务的计算逻辑比较复杂,但

阅读全文

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

作者:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结

阅读全文

2019大数据技术公开课年度合集,带你看尽全年大数据精彩直播

在过去的一年中,大数据技术公开课共六季23次直播,内容涵盖**阿里经济体的大数据典型场景最佳实践揭秘,企业级大数据平台的构建和思考,各行业客户大数据实战,阿里巴巴大数据产品特性讲解,技术大咖专访及开发者成长**等内容。为方便开发者们更好的回顾和学习,现发布年

阅读全文

购买阿里云ECS服务器实例规格型号、功能、型号级别介绍及选择

阿里云服务器ECS服务器不同与传统物理服务器,ecs服务器在购买的时候分为很多实例规格族。那么到底有哪些实例规格族呢?再者那种实例规格族适用于我?很多初次购买阿里云服务器用户在选择的时候往往不知道如何选择。 在具体选购过程中,要是我们不清楚怎样挑选具体的硬件

阅读全文

阿里云服务器如何选择?ECS服务器配置规格及使用体验

阿里云ECS云服务器如何选择?其中云服务器配置CPU、内存及宽带的选择,另外包括ECS云服务器规格的选择,新手站长网来说说阿里云ECS云服务器配置选择、规格说明及使用体验。 云服务器配置如何选择? 阿里云ECS云服务器的配置包括CPU、内存、公网宽带及云盘,

阅读全文

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目,并于2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上开源的一个存储层。它是 Databricks Runtime 重要组成部分。为 Apache Spa

阅读全文

Spark2相关问答

查看更多 提问题

EMR 5.21,Spark 2.4 - Json4s依赖性被破坏

问题 在EMR 5.21中,Spark-Hbase集成被破坏。 df.write.options()。format()。save()失败。 原因是json4s-jackson版本3.5.3在spark 2.4,EMR 5.21 它在EMR 5.11.

阅读全文

MetaBase怎么添加Spark2 DataType

MetaBase怎么添加Spark2 DataType

阅读全文

编译spark2.4.0 遇到这个问题

编译spark2.4.0 遇到这个问题 [ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-first) on pr

阅读全文

Spark 【问答合集】

如何使用spark将kafka主题中的writeStream数据写入hdfs? https://yq.aliyun.com/ask/493211 当Spark在S3上读取大数据集时,在“停机时间”期间发生了什么? https://yq.aliyun.co

阅读全文

对spark2.4来说Hadoop的最佳版本

我已经安装了spark2.4,我想知道应该选择哪个最佳版本

阅读全文

使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达百万级别 ,这个怎么优化下

请教各位大神们: 使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达千万级别 ,这个怎么优化下

阅读全文

大家有没有碰到过类似情况,spark初学者,sparksql on yarn,每一小时会批量跑一些SQL,跑了2天,大概就会出现这样的情况。求解。。

大多数作业其实是结束了的 ![610585CC_11B5_4189_A141_B1D15C8E05E1](https://yqfile.alicdn.com/4aa987d9c5640b5cb4af0df1073af530926b6fb6.png)

阅读全文

在EMR类中找不到Spark-submit异常java

我有一个jar包捆绑创建一个弹簧启动应用程序,其中我创建spark会话来做一些操作。 然后我发送这个jar AWS EMR,要么运行的spark-submit或者java -jar未工作的可执行文件。 这是我的jar结构 jar -tf <jar

阅读全文