Apache Spark中国技术社区 + 关注 E-MapReduce

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。

数据存储与数据库 移动开发与客户端 网络与数据通信 大数据 redis Apache shell 集群 spark scala DataFrame 云数据库 string EMR 安全问道

8月14日Spark社区直播【Spark Shuffle 优化】

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

云栖社区 编程语言 大数据 性能 测试 钉钉 spark aliyun EMR 存储

EMR Spark Relational Cache 利用数据预组织加速查询

在利用Relational Cache进行查询优化时,我们需要通过预计算,存储大量数据。而在查询时,我们真正需要读取的数据量也许并不大。为了能让查询实现秒级响应,这就涉及到优化从大量数据中快速定位所需数据的场景。

Cache 排序 spark aliyun 索引 EMR Group 存储 big data sparksql RelationalCache ZOrder

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收集ECS上的日志数据,通过Spark S...

nginx 系统研发与运维 移动开发与客户端 大数据 监控 SQL 日志 集群 Image 控制台 spark 流式计算 string EMR 表格存储

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。

云栖社区 系统软件 系统研发与运维 网络与数据通信 linux 深度学习 大数据 性能 Apache 数据仓库 Cache Image spark 分布式计算 安全问道

玩转阿里云EMR三部曲-入门篇

优异的自动化创建集群让小伙伴可以专心于业务开发,不再纠结于hadoop版本,spark版本,甚至某些jar版本引发的各种奇怪问题,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小时,也可以3个节点执行5小时,非常灵活。

nginx 编程语言 系统研发与运维 移动开发与客户端 网络与数据通信 大数据 架构 OSS hdfs hadoop 公共云 配置 spark EMR

Spark on Kubernetes 的现状与挑战

云原生时代,Kubernetes 的重要性日益凸显,这篇文章以 Spark 为例来看一下大数据生态 on Kubernetes 生态的现状与挑战。

大数据 native 性能 Apache 集群 内存管理 spark Driver github

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些...

云栖社区 编程语言 系统研发与运维 移动开发与客户端 大数据 机器学习 Apache 钉钉 spark aliyun EMR 存储

使用EMR-Kafka Connect进行数据迁移

本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移,使用distributed模式。

云栖社区 系统软件 移动开发与客户端 Json Apache 数据库 配置 集群 Image 数据迁移 同步 流式计算 EMR 数据同步 安全问道

HDFS Federation简介

背景 熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 D...

大数据 架构 hdfs hadoop 高可用 配置 集群 Image 存储 路由器

7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】

Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Ar...

安全与风控 系统研发与运维 网络与数据通信 Apache spark aliyun 开源大数据 存储 安全问道

【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准,各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题,社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL...

云栖社区 系统软件 系统研发与运维 网络与数据通信 大数据 SQL Apache Image 流式计算 表达式

E-MapReduce产品探秘,扩展开源生态云上的能力

E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。

云栖社区 编程语言 系统研发与运维 大数据 aliyun e-mapreduce EMR

使用Spark Streaming SQL基于时间窗口进行数据统计

使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理,同时Spark Streaming SQL提供的时间窗口函数可以将事件时间按照一定的时间区间对数据进行统计操作。 本文通过讲解一个统计用户在过去5秒钟内...

系统软件 数据存储与数据库 系统研发与运维 大数据 SQL 日志 spark 流式计算 Create Group 数据统计

【译】使用Spark SQL 运行大规模基因组工作流

https://databricks.com/blog/2019/06/26/scaling-genomic-workflows-with-spark-sql-bgen-and-vcf-readers.html 使用Spark SQL 运...

python 大数据 SQL spark DataFrame 存储 数据类型 数组 工作流

【译】数据湖正在成为新的数据仓库

原文链接 https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html?upd=1561666042410 ...

大数据 Apache 人工智能 数据仓库 Hive 存储 数据存储

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网...

性能 spark e-mapreduce EMR sparksql RuntimeFilter

钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。

nginx 系统软件 数据存储与数据库 大数据 集群 Image 钉钉 e-mapreduce EMR 高性能 安全问道

钉钉群直播【Koalas 介绍】

Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。

云栖社区 数据存储与数据库 系统研发与运维 分布式 大数据 Apache 钉钉 spark pandas EMR

【译】Spark-Alchemy:HyperLogLog的使用介绍

原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html] 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从...

大数据 算法 性能 spark 数据结构 存储

5
GO