1. 云栖社区>
  2. 全部标签>
  3. #EMR#
EMR

#EMR#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

通过WebUI查看Structured Streaming作业统计信息

从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。

大数据 SQL 数据处理 开源 spark 流式计算 e-mapreduce 分布式计算 EMR last input

【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业???

【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业???

分布式 分布式系统与计算 hadoop 配置 集群 odps spark aliyun API EMR service MaxCompute

Kafka数据迁移MaxCompute最佳实践

本文向您详细介绍如何使用DataWorks数据同步功能,将Kafka集群上的数据迁移到阿里云MaxCompute大数据计算服务。

数据存储与数据库 大数据 分布式系统与计算 配置 集群 主机 测试 数据迁移 脚本 string EMR 数据同步 Group zookeeper MaxCompute

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能,通过Relational Cache,用户可以提前将任意关系型数据(Table/View/Dataset)cache到任意Spark支持的DataSource中,并支持灵活的cache数据组织方式,基于此,Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

安全与风控 编程语言 系统研发与运维 移动开发与客户端 数据处理 Cache 数据分析 spark EMR 安全问道

使用Relational Cache加速EMR Spark数据分析

Relational Cache的强大功能赋予了Spark更多的可能,通过Relational Cache,用户可以提前将任意关系型数据(Table/View/Dataset)cache到任意Spark支持的DataSource中,并支持灵活的cache数据组织方式,基于此,Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。

大数据 数据处理 Cache 数据分析 spark EMR

使用EMR-Flume将非EMR集群的数据同步至EMR集群的HDFS

E-MapReduce从3.20.0版本开始对EMR-Flume新增了Log Service Source。借助Log Service的Logtail等工具,可以将需要同步的数据实时采集并上传到LogHub,再使用EMR-Flume将LogHub的数据同步至EMR集群的HDFS

大数据 分布式系统与计算 实时系统 hdfs LOG 配置 集群 agent 同步 EMR 数据同步 flume loghub LogService

从数砖开源 Delta Lake 说起

Spark AI 北美峰会的第一天,坊间传闻被证实,Databrics(俗称数砖,亦称砖厂)的杀手锏 Delta 产品特性作为 Delta Lake 项目开源!会前,笔者有幸同砖厂的两位大佬李潇和连城做了个线下交流,谈到 Delta 时被告知会有相关重磅在大会上宣布,但却没想到是开源出去。

云栖社区 系统软件 数据存储与数据库 python php 大数据 空间索引原理 混合式开发 Apache 阿里技术协会 EMR ACID Delta Lake Databrics

浅谈 Spark 的多语言支持

Spark架构和设计上的优秀毋庸置疑,从一出道便抢了 Hadoop 的 C 位。在开源大数据的黄金十年一时风头无两,在当下人工智能时代仍然能够与时俱进,通天之处不遑多言,美中不足之处也有不少。小的方面,比如调度模型跟 MapReduce 这种计算范式过于耦合,Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型,所幸在于对框架的改动不会伤筋动骨;有些缺陷则不然,影响全局,调整起来绝非易事。

python 深度学习 大数据 java hadoop 阿里技术协会 spark scala 开源大数据 Driver EMR 多语言

浅谈 Spark 的多语言支持(修订版)

Spark 设计上的优秀无容置疑,甫一出道便抢了 Hadoop 的 C 位,在开源大数据的黄金十年里一时风头无两,在人工智能时代的当下仍然能够与时俱进,不可谓不牛逼。架构和设计上的卓越,不遑多言,美中不足之处自然也有不少,比如调度模型跟 MapReduce 这种计算范式过于耦合,Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型,所幸在于对框架的改动不会伤经动骨。

云栖社区 系统软件 数据存储与数据库 系统研发与运维 网络与数据通信 python 深度学习 大数据 java hadoop spark scala 开源大数据 EMR

YARN NodeLabel功能以及在EMR弹性伸缩中的应用

YARN Node Label功能最早是在Hadoop 2.6版本中引入,在后续版本中有更多的功能完善。到了Hadoop 2.8.x版本之后,该功能已经比较完整,可以满足日常使用。在本文中,我们需要将Node Label功能应用在EMR弹性伸缩场景中。 其实Node Label特性更准确的叫法是Node Partition,也就是说通过label把YARN集群中的节点分组,每个节点拥有一个l

分布式系统与计算 hadoop 阿里技术协会 配置 cluster 集群 弹性伸缩 node spark Core EMR Mapreduce

为数据计算提供强力引擎,阿里云文件存储HDFS v1.0公测发布

在2019年3月的北京云栖峰会上,阿里云正式推出全球首个云原生HDFS存储服务—文件存储HDFS,为数据分析业务在云上提供可线性扩展的吞吐能力和免运维的快速弹性伸缩能力,降低用户TCO。阿里云文件存储HDFS的发布真正解决了HDFS文件系统不适应云上场景的缺陷问题,用户无须花费精力维护和优化底层存储。

大数据 hdfs hadoop 性能 集群 云存储 Image 弹性伸缩 spark EMR 分布式文件系统 离线分析 存储 文件存储 存储计算分离

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

基本架构 RDS -> SLS -> Spark Streaming -> Spark HDFS 上述链路主要包含3个过程: 如何把 RDS 的 binlog 收集到 SLS。 如何通过 Spark Streaming 将 SLS 中的日志读取出来,进行分析。

mysql hadoop 日志 SLS Apache 配置 集群 spark aliyun EMR binlog

通过WebUI查看Structured Streaming作业统计信息

前言 从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。

SQL Image spark EMR input

Apache Spark + Intel Analytics Zoo 进行深度学习

Analytics Zoo 是由 Intel 开源,基于 Apache Spark 和 Inte BigDL 的大数据分析和 AI 平台,方便用户开发基于大数据、端到端的深度学习应用。本文简单介绍了如何在阿里云 E-MapReduce 使用 Analytics Zoo 来进行深度学习。

python 深度学习 大数据 Apache js 集群 Image spark EMR pip github 大数据分析

基于AWS的电子商务网站架构——营销与推荐服务

用AWS可以建立一个营销与推荐服务,来管理有针对性的营销活动,并为正在浏览电子商务网站的客户提供个性化的产品推荐。 为了建立这样一个服务,你必须处理非常大量来自多个数据源的数据。

架构 服务器 RDS 日志 数据库 web 个性化推荐 集群 EMR 高性能 service 存储

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

主讲人:王道远(健身) 阿里巴巴计算平台EMR技术专家 直播时间:2018.12.13(本周四)19:00 - 20:00 内容提要:本次讲座主要涵盖Spark RDD编程入门基础,包括: Spark、RDD简介 RDD API简介 打包与spark-submit 性能分析与调优基础 ppt链接:https://yq.

Apache spark aliyun API EMR 编程

Spark中的资源调度

本文对Spark的资源调度的进行了介绍,涉及到4个维度的调度,包括SparkApplication/pool/TaskSetManager/Task。

算法 SQL 配置 测试 spark e-mapreduce xml EMR scheduler

# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】

内容提要:本次讲座主要涵盖Spark RDD编程入门基础,包括:1. Spark、RDD简介 2. RDD API简介 3. 打包与spark-submit 4. 性能分析与调优基础主讲人:王道远(健身) 阿里巴巴计算平台EMR技术专家直播时间:2018.

钉钉 spark API EMR 编程 spark】

【译】SQL Pivot介绍

本文介绍SQL Pivot以及如何使用该功能

函数 SQL Image spark EMR

上一页 1 ... 2 3 4 5 6 ... 8 下一页
8
GO