开源大数据EMR + 关注

E-MapReduce 4.0产品新特性

发布时间:2019-10-23 15:24:32 浏览:152 评论:0

E-MapReduce是运行在阿里云平台上的一大数据处理的系统解决方案。在2019年10月,阿里巴巴将发布EMR4.0版本。本篇介绍EMR4.0的新特性,包括在EMR基础能力,技术栈,生态集成和数据迁移等方面的升级,EMR4.0为用户提供更高的计算性能和更低的产品价格,将技术的红利让给用户。

阿里云EMR

5分钟迅速搭建云上Lambda大数据分析架构

发布时间:2019-10-21 11:06:29 浏览:356 评论:0

主要介绍基于 Tablestore 的数据变更实时捕获订阅能力,实现云上Lambda 架构的轻量化实现数据的实时和离线处理。演示模拟了一个电商订单场景,通过流计算实现订单大屏的场景,做到海量订单实时注入的同时,进行10s的订单统计聚合以及交易金额统计并做实时的大屏幕展示

阿里云EMR

使用Spark Streaming SQL进行PV/UV统计

发布时间:2019-10-16 14:49:12 浏览:513 评论:0

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析,例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析,比如分析用户的网页点击行为,此时就需要对UV做统计。

Apache Spark中国技术社区

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

发布时间:2019-10-14 16:50:01 浏览:243 评论:0

本次直播我们邀请了Tablestore存储服务技术专家 朱晓然 ,为大家详细介绍如何基于Tablestore的CDC技术,将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。

阿里云EMR

【译】Delta Lake 0.4.0 新特性演示:使用 Python API 就地转换与处理 Delta Lake 表

发布时间:2019-10-12 11:56:49 浏览:1403 评论:0

本文以案例演示在最新的 Delta Lake 0.4.0 中,如何转换 Delta Lake 表,使用全新的 Python API 执行 upsert 与删除数据,用时间旅行 (time travel) 查询数据的旧版本,以及 vacuum 语句清理旧版本。

阿里云EMR

JindoFS解析 - 云上大数据高性能数据湖存储方案

发布时间:2019-10-10 09:54:40 浏览:9472 评论 :0

JindoFS 是云原生的文件系统,可以提供OSS 超大容量以及本地磁盘的性能

Apache Spark中国技术社区

JindoFS概述:云原生的大数据计算存储分离方案

发布时间:2019-10-07 22:25:20 浏览:8655 评论:0

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前,云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统,10 年来,HDFS 已经成为大数据生态的存储标准,但是我们也可以看到 HDFS 虽然不断优化,但是 JVM 的瓶颈也始终无法突破。

阿里云EMR

Apache Flink : Checkpoint 原理剖析与应用实践

发布时间:2019-09-27 13:45:14 浏览:3007 评论:0

本文将分享 Flink 中 Checkpoint 的应用实践,包括四个部分,分别是 Checkpoint 与 state 的关系、什么是 state、如何在 Flink 中使用 state 和 Checkpoint 的执行机制

阿里云EMR

太难了!我耗费心力终于规划出了一张云栖大会日程表

发布时间:2019-09-24 18:11:34 浏览:938 评论:0

十年前,参加云栖大会还只是程序员的杭州朝圣之旅,而如今,它依然成了透视和分析云计算产业和窥见数字经济的窗口。一切你想看见的、期待看见的,甚至未曾预见的,都会在未来的三天中扑面而来。

阿里云EMR

实时 OLAP 系统 Druid

发布时间:2019-09-20 16:12:35 浏览:4216 评论:0

整体来看,Druid 算是一个优秀的实时 OLAP 系统,虽然有一些地方设计的并不是尽善尽美,但是瑕不掩瑜。这篇文章简单介绍一些 Druid 的整体情况,希望可以给使用 Druid 的同学做一些参考。下一篇文章将会介绍一下我们过去一年基于 Druid 的实践情况以及一些踩过的坑。

阿里云EMR

Apache Spark中国技术交流社区历次直播回顾(持续更新)

发布时间:2019-09-19 11:39:39 浏览:3138 评论:1

Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉团队群号:HPRX8117。更多视频和ppt资料请入群获得。

阿里云EMR

7月24日阿里云峰会.上海 开发者大会回看

发布时间:2019-09-18 16:32:21 浏览:422 评论:0

阿里云峰会.上海 开发者大会将在上海世博中心盛大启程,与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势,分析阿里云在一线生产场景的最佳实践,携手合作伙伴及广大开发者们共建云上开发新时代,让我们一起code up!

阿里云EMR

【译】Hadoop发生了什么?我们该如何做?

发布时间:2019-09-17 14:24:58 浏览:603 评论:0

许多组织都关注Hadoop生态系统的最新发展,并承受着展示数据湖价值的压力。对于企业来说,至关重要的是确定如何在Hadoop失败后成功地实现应用程序的现代化,以及实现这一目标的最佳策略。Hadoop曾经是最被炒作的技术,如今属于人工智能。当心炒作周期,有一天你可能不得不为它的影响负责。

阿里云EMR

【译】Hadoop发生了什么?我们该如何做?

发布时间:2019-09-16 14:10:40 浏览:5107 评论 :0

原文:https://insidebigdata.com/2019/08/10/what-happened-to-hadoop-and-where-do-we-go-from-here/ Apache Hadoop出现在IT领域是在2006年,它可以支持使用廉价的商用硬件来存储海量数据。

大数据 hadoop Apache 人工智能 数据流 集群 数据分析 存储 数据存储 海量数据 开源计算 数据湖 数据集市

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

发布时间:2019-09-12 13:44:03 浏览:8811 评论 :0

预聚合是高性能分析中的常用技术,通过预先聚合降低纬度,从而在查询时大幅减少计算量,提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能,并且探讨它是如何解决大数据中数据聚合的问题。

阿里云EMR

深入剖析 Delta Lake:详解事务日志

发布时间:2019-09-11 16:40:19 浏览:886 评论 :0

事务日志(Transaction log)是理解 Delta Lake 的一个关键点,很多 Delta Lake 的重要特性都是基于事务日志实现的,包括 ACID 事务性、可扩展元数据处理、时间回溯等等。本文将探讨什么是事务日志,如何在文件层面实现,以及怎样优雅地解决并发读写的问题。

阿里云EMR

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

发布时间:2019-09-02 11:47:16 浏览:594 评论:0

Koalas项目基于Apache Spark实现了pandas DataFrame API,从而使数据科学家能够更有效率的处理大数据。一份代码可以同时在pandas(用于测试,小数据集)和Spark(用于分布式datasets)两个平台上运行。

阿里云EMR

EMR 升级Hadoop 2.8.5

发布时间:2019-09-02 10:26:55 浏览:332 评论 :0

信息摘要: EMR 提供Hadoop 2.8.5,方便开发者使用新版Hadoop功能。适用客户: 所有客户版本/规格功能: EMR-3.18.0及以后版本,Hadoop升级为2.8.5,开发者可以方便地使用新版Hadoop的功能。

hadoop aliyun EMR html

EMR 最新版 EMR-3.22.0 发布

发布时间:2019-09-02 10:26:50 浏览:480 评论 :0

信息摘要: EMR 升级到 EMR-3.22.0,包含多项重大更新及新增组件。适用客户: 所有客户版本/规格功能: EMR-3.22.0 发布多项重大更新,新增包括 Kudu、OpenLDAP,Spark新增支持 delta datasource。

spark aliyun EMR html

HIVE优化浅谈

发布时间:2019-08-30 16:06:45 浏览:1105 评论:0

HIVE是数据仓库和交互式查询的优秀框架,但随着数据的增多,join的复杂度和性能问题,需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化,还可以接入计算性能更好的框架,SparkSQL relational cache对使用者透明,开发不需要关心底层优化逻辑,将更多精力放入业务设计开发。

阿里云EMR

10