1. 云栖社区>
  2. 全部标签>
  3. #EMR#
EMR

#EMR#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

EMR 升级Hadoop 2.8.5

信息摘要: EMR 提供Hadoop 2.8.5,方便开发者使用新版Hadoop功能。适用客户: 所有客户版本/规格功能: EMR-3.18.0及以后版本,Hadoop升级为2.8.5,开发者可以方便地使用新版Hadoop的功能。

hadoop aliyun EMR html

EMR 最新版 EMR-3.22.0 发布

信息摘要: EMR 升级到 EMR-3.22.0,包含多项重大更新及新增组件。适用客户: 所有客户版本/规格功能: EMR-3.22.0 发布多项重大更新,新增包括 Kudu、OpenLDAP,Spark新增支持 delta datasource。

spark aliyun EMR html

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

Virgin Hyperloop One(超级高铁公司)是一家从事超级高铁研究的公司,致力于能让高铁达到飞机的速度并且拥有更低的成本。为了能够制造一个商业的系统,我们需要收集并且分析非常大量的各种不同的数据,包括各种运行测试数据,多种模拟数据,技术设施数据,甚至社会经济数据等等。

云栖社区 深度学习 分布式 机器学习 性能 Apache 测试 spark DataFrame pandas 脚本 EMR timestamp

列式存储系列(二): Vertica

本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说,Vertica 是一个纯正的列式存储数据库,为此,Vertica 设计实现了 projection 这一数据模型,并围绕该模型设计实现了一套大数据分析管理引擎。

数据存储与数据库 移动开发与客户端 大数据 数据库 排序 spark HASH ROS EMR 存储

玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源

利用阿里云EMR生态定制化集群,实现数据仓库满足商业/运营的查询需求,并提供横向扩展提升性能的空间,结合多样服务达到数据交互查询及统一数据源下的最佳成本控制。

nginx 安全与风控 数据存储与数据库 移动开发与客户端 大数据 架构 MongoDB 域名 mysql 集群 控制台 spark 运营 EMR 磁盘

玩转阿里云EMR三部曲-中级篇 集成自有服务

利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境,隔离计算和生产资源,并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。

安全与风控 移动开发与客户端 大数据 架构 OSS 高并发 配置 集群 弹性伸缩 钉钉 spark solr 脚本 EMR 安全问道

玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源

玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源 作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。

大数据 架构 分布式系统与计算 MongoDB 域名 mysql 集群 控制台 aliyun 运营 EMR Hive 磁盘

8月28日社区直播【Spark Streaming SQL流式处理简介】

本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示

云栖社区 编程语言 大数据 SQL 钉钉 spark 流式计算 aliyun e-mapreduce EMR demo 安全问道

8月28日社区直播【Spark Streaming SQL流式处理简介】

本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示

nginx 数据存储与数据库 大数据 SQL 钉钉 spark 流式计算 aliyun e-mapreduce EMR demo 安全问道

玩转阿里云EMR三部曲-中级篇 集成自有服务

玩转阿里云EMR三部曲-中级篇 集成自有服务 作者:邓力,entobit技术总监,八年大数据从业经历,由一代hadoop入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。

大数据 架构 OSS 高并发 配置 集群 spark solr aliyun 脚本 离线计算 EMR 弹性扩展

基于Knox登录Yarn UI查看SparkStreaming作业兼容性问题说明

问题背景 1.登录EMR集群节点,运行SparkStreaming示例,如下所示(不同版本EMR集群spark-examples_xxx.jar的路径略有差异): [root@emr-header-1 ~]# spark-submit --class org.

配置 安全组 集群 SSH Image spark google EMR test 兼容性 chrome 流数据

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。

数据存储与数据库 移动开发与客户端 网络与数据通信 大数据 redis Apache shell 集群 spark scala DataFrame 云数据库 string EMR 安全问道

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis

redis Apache 数据库 shell 集群 spark scala DataFrame 云数据库 string EMR

AnalyticDB for PostgreSQL 实时数据仓库上手指南

AnalyticDB for PostgreSQL 提供企业级数据仓库云服务,基于开源Greenplum构建,采用MPP架构,支持1000+节点PB级数据的实时分析。

PostgreSQL Greenplum mysql hadoop etl 同步 OLAP MPP 分析型数据库 EMR MaxCompute AnalyticDB HybridDB 企业数仓

8月14日Spark社区直播【Spark Shuffle 优化】

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

安全与风控 数据存储与数据库 大数据 性能 测试 钉钉 spark aliyun EMR 存储 安全问道

8月14日Spark社区直播【Spark Shuffle 优化】

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

云栖社区 编程语言 大数据 性能 测试 钉钉 spark aliyun EMR 存储

EMR Spark Relational Cache 利用数据预组织加速查询

本文介绍了EMR Spark的Relational Cache如何从数据量较大的Cube中快速提取出所需数据加速查询的原理。通过列式存储、文件索引、Z-Order等技术,我们可以快速过滤数据,大大减少实际发生的IO数据量,避免IO瓶颈的出现,从而优化整体查询性能。

系统研发与运维 移动开发与客户端 网络与数据通信 大数据 Cache 排序 spark aliyun 索引 EMR Group 存储 安全问道

EMR Spark Relational Cache 利用数据预组织加速查询

在利用Relational Cache进行查询优化时,我们需要通过预计算,存储大量数据。而在查询时,我们真正需要读取的数据量也许并不大。为了能让查询实现秒级响应,这就涉及到优化从大量数据中快速定位所需数据的场景。

Cache 排序 spark aliyun 索引 EMR Group 存储 big data sparksql RelationalCache ZOrder

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,将流计算结果数据实时写入Tablestore,展示一个简单的日志监控场景。

监控 TableStore SQL 日志 日志服务 SLS spark ots EMR 表格存储 流计算 sparkstreaming loghub StreamCompute 聚合

8
GO