开源大数据EMR + 关注

开源大数据EMR 发表了文章:

实时 OLAP 系统 Druid

发布时间:2019-09-20 16:12:35 浏览:165 回帖 :0

整体来看,Druid 算是一个优秀的实时 OLAP 系统,虽然有一些地方设计的并不是尽善尽美,但是瑕不掩瑜。这篇文章简单介绍一些 Druid 的整体情况,希望可以给使用 Druid 的同学做一些参考。...

阿里云EMR

开源大数据EMR 发表了文章:

Apache Spark中国技术交流社区历次直播回顾(持续更新)

发布时间:2019-09-19 11:39:39 浏览:2456 回帖 :1

Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉团队群号:HPRX8117。更多视频...

阿里云EMR

开源大数据EMR 发表了文章:

7月24日阿里云峰会.上海 开发者大会回看

发布时间:2019-09-18 16:32:21 浏览:205 回帖 :0

阿里云峰会.上海 开发者大会将在上海世博中心盛大启程,与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势,分析阿里云在一线生产场景的最佳...

阿里云EMR

开源大数据EMR 发表了文章:

【译】Hadoop发生了什么?我们该如何做?

发布时间:2019-09-17 14:24:58 浏览:393 回帖 :0

许多组织都关注Hadoop生态系统的最新发展,并承受着展示数据湖价值的压力。对于企业来说,至关重要的是确定如何在Hadoop失败后成功地实现应用程序的现代化,以及实现这一目标的最佳策略。Hadoop曾...

阿里云EMR

开源大数据EMR 发表了文章:

【译】Hadoop发生了什么?我们该如何做?

发布时间:2019-09-16 14:10:40 浏览:4497 回帖 :0

原文:https://insidebigdata.com/2019/08/10/what-happened-to-hadoop-and-where-do-we-go-from-here/ Apach...

大数据 hadoop Apache 人工智能 数据流 集群 数据分析 存储 数据存储 海量数据 开源计算 数据湖 数据集市

开源大数据EMR 发表了文章:

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

发布时间:2019-09-12 13:44:03 浏览:8305 回帖 :0

预聚合是高性能分析中的常用技术,通过预先聚合降低纬度,从而在查询时大幅减少计算量,提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能,并且探讨...

阿里云EMR

开源大数据EMR 发表了文章:

深入剖析 Delta Lake:详解事务日志

发布时间:2019-09-11 16:40:19 浏览:469 回帖 :0

事务日志(Transaction log)是理解 Delta Lake 的一个关键点,很多 Delta Lake 的重要特性都是基于事务日志实现的,包括 ACID 事务性、可扩展元数据处理、时间回溯等...

阿里云EMR

开源大数据EMR 发表了文章:

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

发布时间:2019-09-02 11:47:16 浏览:400 回帖 :0

Koalas项目基于Apache Spark实现了pandas DataFrame API,从而使数据科学家能够更有效率的处理大数据。一份代码可以同时在pandas(用于测试,小数据集)和Spark(...

阿里云EMR

开源大数据EMR 发表了文章:

EMR 升级Hadoop 2.8.5

发布时间:2019-09-02 10:26:55 浏览:244 回帖 :0

信息摘要: EMR 提供Hadoop 2.8.5,方便开发者使用新版Hadoop功能。适用客户: 所有客户版本/规格功能: EMR-3.18.0及以后版本,Hadoop升级为2.8.5,开发者可以方便...

hadoop aliyun EMR html

开源大数据EMR 发表了文章:

EMR 最新版 EMR-3.22.0 发布

发布时间:2019-09-02 10:26:50 浏览:309 回帖 :0

信息摘要: EMR 升级到 EMR-3.22.0,包含多项重大更新及新增组件。适用客户: 所有客户版本/规格功能: EMR-3.22.0 发布多项重大更新,新增包括 Kudu、OpenLDAP,Spa...

spark aliyun EMR html

开源大数据EMR 发表了文章:

HIVE优化浅谈

发布时间:2019-08-30 16:06:45 浏览:923 回帖 :0

HIVE是数据仓库和交互式查询的优秀框架,但随着数据的增多,join的复杂度和性能问题,需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化,还可以接入计算性能更好的框架,SparkSQL r...

阿里云EMR

开源大数据EMR 发表了文章:

8月28日社区直播【Spark Streaming SQL流式处理简介】

发布时间:2019-08-26 18:45:58 浏览:234 回帖 :0

本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示

阿里云EMR

开源大数据EMR 发表了文章:

8月28日社区直播【Spark Streaming SQL流式处理简介】

发布时间:2019-08-26 18:42:26 浏览:441 回帖 :0

本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示

云栖社区 编程语言 大数据 SQL 钉钉 spark 流式计算 aliyun e-mapreduce EMR demo 安全问道

开源大数据EMR 发表了文章:

8月14日Spark社区直播【Spark Shuffle 优化】

发布时间:2019-08-12 17:44:06 浏览:227 回帖 :0

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的...

开源大数据EMR 发表了文章:

8月14日Spark社区直播【Spark Shuffle 优化】

发布时间:2019-08-12 17:00:29 浏览:868 回帖 :0

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的...

安全与风控 数据存储与数据库 大数据 性能 测试 钉钉 spark aliyun EMR 存储 安全问道

开源大数据EMR 发表了文章:

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

发布时间:2019-08-05 14:28:54 浏览:479 回帖 :0

从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收...

nginx 数据存储与数据库 移动开发与客户端 大数据 监控 SQL 日志 集群 Image 控制台 spark 流式计算 string EMR 表格存储

开源大数据EMR 发表了文章:

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

发布时间:2019-08-02 15:16:14 浏览:839 回帖 :0

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3...

云栖社区 系统软件 系统研发与运维 网络与数据通信 linux 深度学习 大数据 性能 Apache 数据仓库 Cache Image spark 分布式计算 安全问道

开源大数据EMR 发表了文章:

Spark on Kubernetes 的现状与挑战

发布时间:2019-08-02 14:31:01 浏览:730 回帖 :0

被称为云上 OS 的 Kubernetes 是 Cloud Native 理念的一种技术承载与体现,但是如何通过 Kubernetes 来助力大数据应用还是有很多可以探索的地方。欢迎交流。

云栖社区 安全与风控 系统软件 大数据 native 性能 Apache 集群 内存管理 spark 开源大数据 Driver github

开源大数据EMR 发表了文章:

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

发布时间:2019-07-29 17:33:03 浏览:517 回帖 :0

在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分...

云栖社区 系统软件 系统研发与运维 大数据 机器学习 Apache 钉钉 spark EMR 存储

开源大数据EMR 发表了文章:

使用EMR-Kafka Connect进行数据迁移

发布时间:2019-07-29 15:33:47 浏览:913 回帖 :0

本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移,使用distributed模式。

云栖社区 系统软件 移动开发与客户端 Json Apache 数据库 配置 集群 Image 数据迁移 同步 流式计算 EMR 数据同步 安全问道

5
暂未提供

感兴趣or擅长的领域:

暂无
更多>
xiajunluan
xiajunluan
文章:0丨 粉丝:158丨 话题:0
蓝天0802
蓝天0802
文章:6丨 粉丝:158丨 话题:0
鸿初
鸿初
文章:21丨 粉丝:177丨 话题:0
eric-li
eric-li
文章:5丨 粉丝:163丨 话题:0
云学习小组
云学习小组
文章:192丨 粉丝:46796丨 话题:0
健身不健身
健身不健身
文章:2丨 粉丝:753丨 话题:0
更多>
前沿的蜗牛
前沿的蜗牛
文章:0丨 粉丝:0丨 话题:0
游客j4i2dsz37p7s6
游客j4i2dsz37p7s6
文章:0丨 粉丝:0丨 话题:0
游客csxrm45ahh5um
游客csxrm45ahh5um
文章:0丨 粉丝:0丨 话题:0
游客f6x2hykpoc5jq
游客f6x2hykpoc5jq
文章:0丨 粉丝:0丨 话题:0
游客3rppylxekzhii
游客3rppylxekzhii
文章:0丨 粉丝:0丨 话题:0
游客35k2h5ray47lg
游客35k2h5ray47lg
文章:0丨 粉丝:0丨 话题:0
杂志