阿里云E-MapReduce团队 + 关注

阿里云E-MapReduce团队 发表了文章:

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

发布时间:2019-09-01 18:27:26 浏览:503 回帖 :0

Virgin Hyperloop One(超级高铁公司)是一家从事超级高铁研究的公司,致力于能让高铁达到飞机的速度并且拥有更低的成本。为了能够制造一个商业的系统,我们需要收集并且分析非常大量的各种不同...

云栖社区 深度学习 分布式 机器学习 性能 Apache 测试 spark DataFrame pandas 脚本 EMR timestamp

阿里云E-MapReduce团队 发表了文章:

玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源

发布时间:2019-08-28 16:54:15 浏览:483 回帖 :0

利用阿里云EMR生态定制化集群,实现数据仓库满足商业/运营的查询需求,并提供横向扩展提升性能的空间,结合多样服务达到数据交互查询及统一数据源下的最佳成本控制。

nginx 安全与风控 数据存储与数据库 移动开发与客户端 大数据 架构 MongoDB 域名 mysql 集群 控制台 spark 运营 EMR 磁盘

阿里云E-MapReduce团队 发表了文章:

玩转阿里云EMR三部曲-中级篇 集成自有服务

发布时间:2019-08-28 16:37:47 浏览:2817 回帖 :0

利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境,隔离计算和生产资源,并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。

安全与风控 移动开发与客户端 大数据 架构 OSS 高并发 配置 集群 弹性伸缩 钉钉 spark solr 脚本 EMR 安全问道

阿里云E-MapReduce团队 发表了文章:

列式存储系列(二): Vertica

发布时间:2019-08-28 16:19:08 浏览:3340 回帖 :0

本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说,Vertica 是一个纯正的列式存储数据库,为此,Vertica 设计实现了 pr...

数据存储与数据库 移动开发与客户端 大数据 数据库 排序 spark HASH ROS EMR 存储

阿里云E-MapReduce团队 发表了文章:

8月28日社区直播【Spark Streaming SQL流式处理简介】

发布时间:2019-08-26 18:35:20 浏览:295 回帖 :0

本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示

nginx 数据存储与数据库 大数据 SQL 钉钉 spark 流式计算 aliyun e-mapreduce EMR demo 安全问道

阿里云E-MapReduce团队 发表了文章:

使用spark-redis组件访问云数据库Redis

发布时间:2019-08-16 16:20:41 浏览:2725 回帖 :0

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。

数据存储与数据库 移动开发与客户端 网络与数据通信 大数据 redis Apache shell 集群 spark scala DataFrame 云数据库 string EMR 安全问道

阿里云E-MapReduce团队 发表了文章:

8月14日Spark社区直播【Spark Shuffle 优化】

发布时间:2019-08-12 16:56:57 浏览:465 回帖 :0

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的...

云栖社区 编程语言 大数据 性能 测试 钉钉 spark aliyun EMR 存储

阿里云E-MapReduce团队 发表了文章:

EMR Spark Relational Cache 利用数据预组织加速查询

发布时间:2019-08-12 10:53:27 浏览:374 回帖 :0

本文介绍了EMR Spark的Relational Cache如何从数据量较大的Cube中快速提取出所需数据加速查询的原理。通过列式存储、文件索引、Z-Order等技术,我们可以快速过滤数据,大大减少...

系统研发与运维 移动开发与客户端 网络与数据通信 大数据 Cache 排序 spark aliyun 索引 EMR Group 存储 安全问道

阿里云E-MapReduce团队 发表了文章:

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

发布时间:2019-08-05 15:13:02 浏览:432 回帖 :0

从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收...

nginx 系统研发与运维 移动开发与客户端 大数据 监控 SQL 日志 集群 Image 控制台 spark 流式计算 string EMR 表格存储

阿里云E-MapReduce团队 发表了文章:

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

发布时间:2019-08-02 15:24:51 浏览:1078 回帖 :0

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3...

安全与风控 数据存储与数据库 移动开发与客户端 深度学习 大数据 性能 Apache 数据仓库 Cache Image spark 开源大数据 分布式计算 source 磁盘

阿里云E-MapReduce团队 发表了文章:

玩转阿里云EMR三部曲-入门篇

发布时间:2019-08-02 11:29:42 浏览:534 回帖 :0

优异的自动化创建集群让小伙伴可以专心于业务开发,不再纠结于hadoop版本,spark版本,甚至某些jar版本引发的各种奇怪问题,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小...

nginx 编程语言 系统研发与运维 移动开发与客户端 网络与数据通信 大数据 架构 OSS hdfs hadoop 公共云 配置 spark EMR

阿里云E-MapReduce团队 发表了文章:

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

发布时间:2019-07-29 17:43:47 浏览:374 回帖 :0

在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分...

云栖社区 编程语言 系统研发与运维 移动开发与客户端 大数据 机器学习 Apache 钉钉 spark aliyun EMR 存储

阿里云E-MapReduce团队 发表了文章:

Flink在快手的应用实践与技术演进之路

发布时间:2019-07-26 17:41:42 浏览:437 回帖 :0

Flink 在快手应用场景与规模 1. Flink 在快手应用场景 快手计算链路是从 DB/Binlog 以及 WebService Log 实时入到 Kafka 中,然后接入 Flink 做...

集群 Image source 磁盘 存储

阿里云E-MapReduce团队 发表了文章:

HDFS Federation简介

发布时间:2019-07-26 16:58:12 浏览:386 回帖 :0

背景 熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架...

大数据 架构 hdfs hadoop 高可用 配置 集群 Image 存储 路由器

阿里云E-MapReduce团队 发表了文章:

7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】

发布时间:2019-07-23 14:11:58 浏览:260 回帖 :1

Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow ...

安全与风控 系统研发与运维 网络与数据通信 Apache spark aliyun 开源大数据 存储 安全问道

阿里云E-MapReduce团队 发表了文章:

【译】使用Spark SQL 运行大规模基因组工作流

发布时间:2019-07-15 10:29:41 浏览:8279 回帖 :0

将数据提取到Spark中是大多数大数据作业的第一步,但这并不是大数据旅途的终点。

nginx 编程语言 移动开发与客户端 网络与数据通信 python 大数据 SQL Image spark DataFrame 存储 数据类型 数组 工作流 安全问道

阿里云E-MapReduce团队 发表了文章:

7月10日直播【E-MapReduce产品探秘,扩展开源生态云上的能力】

发布时间:2019-07-08 18:52:16 浏览:258 回帖 :0

E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。

安全与风控 数据存储与数据库 系统研发与运维 大数据 aliyun e-mapreduce EMR

阿里云E-MapReduce团队 发表了文章:

数据湖正在成为新的数据仓库

发布时间:2019-07-08 10:58:25 浏览:2768 回帖 :0

新一代数据仓库实际上是数据湖,对那些用于构建和训练机器学习模型的清洗,整合和验证的数据进行管理。例如,去年秋天在Amazon re:Invent 大会上,亚马逊网络服务公布了AWS Lake Form...

云栖社区 系统软件 移动开发与客户端 大数据 Apache 人工智能 数据仓库 Hive 存储 数据存储 安全问道

阿里云E-MapReduce团队 发表了文章:

EMR Spark Runtime Filter性能优化

发布时间:2019-07-05 11:17:37 浏览:683 回帖 :0

Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查...

安全与风控 编程语言 系统研发与运维 大数据 性能优化 性能 runtime spark EMR 存储 安全问道

阿里云E-MapReduce团队 发表了文章:

钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

发布时间:2019-07-02 14:27:52 浏览:586 回帖 :0

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。

nginx 系统软件 数据存储与数据库 大数据 集群 Image 钉钉 e-mapreduce EMR 高性能 安全问道

4
暂未提供

感兴趣or擅长的领域:

暂无
更多>
云无谓
云无谓
文章:10丨 粉丝:877丨 话题:0
祥栖
祥栖
文章:4丨 粉丝:3178丨 话题:0
知瑕
知瑕
文章:2丨 粉丝:875丨 话题:0
江宇-燕回
江宇-燕回
文章:1丨 粉丝:741丨 话题:0
诚历
诚历
文章:2丨 粉丝:741丨 话题:0
社区小助手
社区小助手
文章:12丨 粉丝:930丨 话题:0
更多>
游客zzdjaqn4zqvfk
游客zzdjaqn4zqvfk
文章:0丨 粉丝:0丨 话题:0
游客hmc6bjj52qdm6
游客hmc6bjj52qdm6
文章:0丨 粉丝:0丨 话题:0
游客mllikrz3wazf4
游客mllikrz3wazf4
文章:0丨 粉丝:0丨 话题:0
游客5zwrzhwoj3246
游客5zwrzhwoj3246
文章:0丨 粉丝:0丨 话题:0
游客fncvad3yxsbzo
游客fncvad3yxsbzo
文章:0丨 粉丝:0丨 话题:0
游客a45xxqtreaykg
游客a45xxqtreaykg
文章:0丨 粉丝:0丨 话题:0