开源大数据EMR + 关注

开源大数据EMR 发表了文章:

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

发布时间:2019-10-14 16:50:01 浏览:169 回帖 :0

本次直播我们邀请了Tablestore存储服务技术专家 朱晓然 ,为大家详细介绍如何基于Tablestore的CDC技术,将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处...

阿里云EMR

开源大数据EMR 发表了文章:

【译】Delta Lake 0.4.0 新特性演示:使用 Python API 就地转换与处理 Delta Lake 表

发布时间:2019-10-12 11:56:49 浏览:1286 回帖 :0

本文以案例演示在最新的 Delta Lake 0.4.0 中,如何转换 Delta Lake 表,使用全新的 Python API 执行 upsert 与删除数据,用时间旅行 (time travel...

阿里云EMR

开源大数据EMR 发表了文章:

JindoFS解析 - 云上大数据高性能数据湖存储方案

发布时间:2019-10-10 09:54:40 浏览:9349 回帖 :0

JindoFS 是云原生的文件系统,可以提供OSS 超大容量以及本地磁盘的性能

Apache Spark中国技术社区

开源大数据EMR 发表了文章:

JindoFS概述:云原生的大数据计算存储分离方案

发布时间:2019-10-07 22:25:20 浏览:8479 回帖 :0

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前,云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统,10 年来,HDF...

阿里云EMR

开源大数据EMR 发表了文章:

Apache Flink : Checkpoint 原理剖析与应用实践

发布时间:2019-09-27 13:45:14 浏览:2933 回帖 :0

本文将分享 Flink 中 Checkpoint 的应用实践,包括四个部分,分别是 Checkpoint 与 state 的关系、什么是 state、如何在 Flink 中使用 state 和 Che...

阿里云EMR

开源大数据EMR 发表了文章:

太难了!我耗费心力终于规划出了一张云栖大会日程表

发布时间:2019-09-24 18:11:34 浏览:883 回帖 :0

十年前,参加云栖大会还只是程序员的杭州朝圣之旅,而如今,它依然成了透视和分析云计算产业和窥见数字经济的窗口。一切你想看见的、期待看见的,甚至未曾预见的,都会在未来的三天中扑面而来。

阿里云EMR

开源大数据EMR 发表了文章:

实时 OLAP 系统 Druid

发布时间:2019-09-20 16:12:35 浏览:4155 回帖 :0

整体来看,Druid 算是一个优秀的实时 OLAP 系统,虽然有一些地方设计的并不是尽善尽美,但是瑕不掩瑜。这篇文章简单介绍一些 Druid 的整体情况,希望可以给使用 Druid 的同学做一些参考。...

阿里云EMR

开源大数据EMR 发表了文章:

Apache Spark中国技术交流社区历次直播回顾(持续更新)

发布时间:2019-09-19 11:39:39 浏览:3079 回帖 :1

Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉团队群号:HPRX8117。更多视频...

阿里云EMR

开源大数据EMR 发表了文章:

7月24日阿里云峰会.上海 开发者大会回看

发布时间:2019-09-18 16:32:21 浏览:373 回帖 :0

阿里云峰会.上海 开发者大会将在上海世博中心盛大启程,与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势,分析阿里云在一线生产场景的最佳...

阿里云EMR

开源大数据EMR 发表了文章:

【译】Hadoop发生了什么?我们该如何做?

发布时间:2019-09-17 14:24:58 浏览:566 回帖 :0

许多组织都关注Hadoop生态系统的最新发展,并承受着展示数据湖价值的压力。对于企业来说,至关重要的是确定如何在Hadoop失败后成功地实现应用程序的现代化,以及实现这一目标的最佳策略。Hadoop曾...

阿里云EMR

开源大数据EMR 发表了文章:

【译】Hadoop发生了什么?我们该如何做?

发布时间:2019-09-16 14:10:40 浏览:5067 回帖 :0

原文:https://insidebigdata.com/2019/08/10/what-happened-to-hadoop-and-where-do-we-go-from-here/ Apach...

大数据 hadoop Apache 人工智能 数据流 集群 数据分析 存储 数据存储 海量数据 开源计算 数据湖 数据集市

开源大数据EMR 发表了文章:

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

发布时间:2019-09-12 13:44:03 浏览:8654 回帖 :0

预聚合是高性能分析中的常用技术,通过预先聚合降低纬度,从而在查询时大幅减少计算量,提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能,并且探讨...

阿里云EMR

开源大数据EMR 发表了文章:

深入剖析 Delta Lake:详解事务日志

发布时间:2019-09-11 16:40:19 浏览:805 回帖 :0

事务日志(Transaction log)是理解 Delta Lake 的一个关键点,很多 Delta Lake 的重要特性都是基于事务日志实现的,包括 ACID 事务性、可扩展元数据处理、时间回溯等...

阿里云EMR

开源大数据EMR 发表了文章:

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

发布时间:2019-09-02 11:47:16 浏览:528 回帖 :0

Koalas项目基于Apache Spark实现了pandas DataFrame API,从而使数据科学家能够更有效率的处理大数据。一份代码可以同时在pandas(用于测试,小数据集)和Spark(...

阿里云EMR

开源大数据EMR 发表了文章:

EMR 升级Hadoop 2.8.5

发布时间:2019-09-02 10:26:55 浏览:310 回帖 :0

信息摘要: EMR 提供Hadoop 2.8.5,方便开发者使用新版Hadoop功能。适用客户: 所有客户版本/规格功能: EMR-3.18.0及以后版本,Hadoop升级为2.8.5,开发者可以方便...

hadoop aliyun EMR html

开源大数据EMR 发表了文章:

EMR 最新版 EMR-3.22.0 发布

发布时间:2019-09-02 10:26:50 浏览:439 回帖 :0

信息摘要: EMR 升级到 EMR-3.22.0,包含多项重大更新及新增组件。适用客户: 所有客户版本/规格功能: EMR-3.22.0 发布多项重大更新,新增包括 Kudu、OpenLDAP,Spa...

spark aliyun EMR html

开源大数据EMR 发表了文章:

HIVE优化浅谈

发布时间:2019-08-30 16:06:45 浏览:1064 回帖 :0

HIVE是数据仓库和交互式查询的优秀框架,但随着数据的增多,join的复杂度和性能问题,需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化,还可以接入计算性能更好的框架,SparkSQL r...

阿里云EMR

开源大数据EMR 发表了文章:

8月28日社区直播【Spark Streaming SQL流式处理简介】

发布时间:2019-08-26 18:45:58 浏览:341 回帖 :0

本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示

阿里云EMR

开源大数据EMR 发表了文章:

8月28日社区直播【Spark Streaming SQL流式处理简介】

发布时间:2019-08-26 18:42:26 浏览:562 回帖 :0

本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示

云栖社区 编程语言 大数据 SQL 钉钉 spark 流式计算 aliyun e-mapreduce EMR demo 安全问道

开源大数据EMR 发表了文章:

8月14日Spark社区直播【Spark Shuffle 优化】

发布时间:2019-08-12 17:44:06 浏览:285 回帖 :0

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的...

5
暂未提供

感兴趣or擅长的领域:

暂无
更多>
xiajunluan
xiajunluan
文章:0丨 粉丝:159丨 话题:0
蓝天0802
蓝天0802
文章:6丨 粉丝:159丨 话题:0
鸿初
鸿初
文章:21丨 粉丝:177丨 话题:0
eric-li
eric-li
文章:5丨 粉丝:164丨 话题:0
云学习小组
云学习小组
文章:192丨 粉丝:49885丨 话题:0
健身不健身
健身不健身
文章:3丨 粉丝:785丨 话题:0
更多>
1526070642367615
1526070642367615
文章:0丨 粉丝:0丨 话题:0
游客wrhbyd4s5fvx4
游客wrhbyd4s5fvx4
文章:0丨 粉丝:0丨 话题:0
游客k22nl2u7wweoe
游客k22nl2u7wweoe
文章:0丨 粉丝:0丨 话题:0
游客o7ohufnkm6326
游客o7ohufnkm6326
文章:0丨 粉丝:0丨 话题:0
游客id7hvpoxjbvhy
游客id7hvpoxjbvhy
文章:0丨 粉丝:0丨 话题:0
游客eem2n7z3khqbo
游客eem2n7z3khqbo
文章:0丨 粉丝:0丨 话题:0
杂志