1. 云栖社区>
  2. 全部标签>
  3. #EMR#
EMR

#EMR#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

【译】Apache spark 2.4:内置 Image Data Source的介绍

主要介绍Apache Spark 2.4版本内置Image Data Source数据源

深度学习 Apache 数据处理 配置 Image spark EMR source 存储 数据类型

[转载] 是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数据计算任务,重心也要...

函数 SQL spark 表达式 EMR sparksql

[译]介绍Spark2.4的用于处理复杂数据类型的新内置函数与高阶函数

Apache Spark2.4引入了29个新的内置函数用于处理复杂数据类型(比如,数组类型等),新的内置函数也包括高阶函数。 在Spark2.4版本之前,有两种典型的方式处理复杂数据类型: 1. 将嵌套结构的数据转化为多行数据,然后使用函数处理,最后在组装成嵌套结构。

hadoop 函数 SQL spark EMR 数据类型 数组

使用ApacheDS对Presto用户进行认证

Presto可以对接LDAP,实现用户密码认证。只需要Coordinator节点对接LDAP即可。主要步骤如下: 1.配置ApacheDS,启用LDAPS 2. 在ApacheDS中创建用户信息 3. 配置Presto Coordinator,重启生效 4. 验证配置

java hadoop Apache 配置 集群 spark EMR Security ldap presto ApacheDS

阿里云EMR产品介绍及常见问题解答

原作者:阿里云解决方案架构师,韩虎。本文主要介绍阿里云EMR产品相对于传统大数据产品的优势,以及平时运维过程中遇到的问题解法。

服务器 hbase hdfs hadoop 问题 源码 数据库 集群 数据迁移 钉钉 解决方案 EMR 数据中心 视频客户 阿里云文娱

阿里云EMR异步构建云HBase二级索引

一、非HA EMR构建二级索引云HBase借助Phoenix实现二级索引功能,对于Phoenix二级索引的详细介绍可参考https://yq.aliyun.com/articles/536850?spm=a2c4e.11153940.blogrightarea544746.26.673e7308MxY7Lc当Phoenix表数据量较大时,可以选择异步构建索引方式,利用MR快速同步索引数据,同时降低HBase服务端负载。

hbase hdfs Apache 配置 集群 索引 xml EMR zookeeper Mapreduce

在阿里云EMR上使用Intel Analytics Zoo进行深度学习

Analytics Zoo是由Intel开源,基于Apache Spark和Inte BigDL的大数据分析和AI平台,方便用户开发基于大数据、端到端的深度学习应用。本文简单介绍了如何在Aliyun EMR使用Analytics Zoo来进行深度学习。

python 深度学习 集群 spark aliyun EMR pip github deeplearning Intel AnalyticsZoo

开源大数据周刊-第99期

资讯 谷歌重磅开源强化学习框架Dopamine谷歌推出了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。 整合AI和数据科学新利器:基于Apache Spark的Hydrogen项目以往数据集的准备以及模型的训练工作是分开的,这两部分工作相当于存在两套系统中。

云栖社区 深度学习 消息系统 大数据 安全 redis 架构 机器学习 云计算 hadoop SQL 日志 开源大数据 EMR flink

EMR:一体化Hadoop云上工作平台

Hadoop生态体系日臻完善,如何利用Hadoop生态各项技术与阿里云更好的服务于企业。EMR最新发布的工作流管理、弹性伸缩、异构计算多项功能,更好的助力用户在阿里云上利用Hadoop、Spark生态体系解决企业大数据问题。

深度学习 大数据 hadoop ECS 公共云 集群 弹性伸缩 spark aliyun 开源大数据 EMR 工作流 海量数据

E-MapReduce上如何采集Kafka客户端Metrics

我们知道Kafka提供一套非常完善的Metrics数据,覆盖Broker,Consumer,Producer,Stream以及Connect。E-MapReduce通过Ganglia收集了Kafka Broker metrics信息,可以很好地监控Broker运行状态。

大数据 分布式系统与计算 Apache 配置 集群 消息中间件 测试 aliyun e-mapreduce EMR timestamp zookeeper bootstrap 存储 kafka

【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景

在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测。

大数据 架构 阿里云 hadoop 云栖大会 集群 数据迁移 对象存储 EMR 容灾 大数据双活容灾服务 邀测

EMR(hadoop/hbase/phoenix夸集群数据迁移采坑记录)

一、概述: Hbase(Phoenix)数据迁移方案主要分为 Hadoop层面(distcp)、及Hbase层面(copyTable、export/import、snapshot) 二、以下针对distcp方案详细说明(以亲测阿里EMR为例): st...

hbase hdfs hadoop shell 集群 数据迁移 EMR Create 存储 字幕

阿里云发布国内首个混合云大数据双活容灾服务

阿里云发布了国内首个混合云大数据集群双活容灾产品-混合云容灾服务下的大数据容灾服务(HDR for Big Data),采用业界领先的数据双向实时复制技术,HDR for Big Data可以实现Hadoop集群双活和准0 RPO容灾,为大数据灾备制定了全新的标准。

云栖社区 大数据 架构 云存储技术 hadoop 云栖大会 集群 数据迁移 对象存储 EMR 容灾 存储

上一页 1 ... 3 4 5 6 7 ... 8 下一页
8
GO