开源大数据EMR + 关注

开源大数据EMR 发表了文章:

8月14日Spark社区直播【Spark Shuffle 优化】

发布时间:2019-08-12 17:44:06 浏览:133 回帖 :0

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的...

开源大数据EMR 发表了文章:

8月14日Spark社区直播【Spark Shuffle 优化】

发布时间:2019-08-12 17:00:29 浏览:725 回帖 :0

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的...

安全与风控 数据存储与数据库 大数据 性能 测试 钉钉 spark aliyun EMR 存储 安全问道

开源大数据EMR 发表了文章:

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

发布时间:2019-08-05 14:28:54 浏览:296 回帖 :0

从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收...

nginx 数据存储与数据库 移动开发与客户端 大数据 监控 SQL 日志 集群 Image 控制台 spark 流式计算 string EMR 表格存储

开源大数据EMR 发表了文章:

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

发布时间:2019-08-02 15:16:14 浏览:465 回帖 :0

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3...

云栖社区 系统软件 系统研发与运维 网络与数据通信 linux 深度学习 大数据 性能 Apache 数据仓库 Cache Image spark 分布式计算 安全问道

开源大数据EMR 发表了文章:

Spark on Kubernetes 的现状与挑战

发布时间:2019-08-02 14:31:01 浏览:531 回帖 :0

被称为云上 OS 的 Kubernetes 是 Cloud Native 理念的一种技术承载与体现,但是如何通过 Kubernetes 来助力大数据应用还是有很多可以探索的地方。欢迎交流。

云栖社区 安全与风控 系统软件 大数据 native 性能 Apache 集群 内存管理 spark 开源大数据 Driver github

开源大数据EMR 发表了文章:

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

发布时间:2019-07-29 17:33:03 浏览:405 回帖 :0

在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分...

云栖社区 系统软件 系统研发与运维 大数据 机器学习 Apache 钉钉 spark EMR 存储

开源大数据EMR 发表了文章:

使用EMR-Kafka Connect进行数据迁移

发布时间:2019-07-29 15:33:47 浏览:771 回帖 :0

本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移,使用distributed模式。

云栖社区 系统软件 移动开发与客户端 Json Apache 数据库 配置 集群 Image 数据迁移 同步 流式计算 EMR 数据同步 安全问道

开源大数据EMR 发表了文章:

7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】

发布时间:2019-07-23 14:15:35 浏览:1677 回帖 :0

Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow ...

nginx 编程语言 系统研发与运维 移动开发与客户端 linux Apache spark aliyun 开源大数据 存储

开源大数据EMR 评论了文章:

E-MapReduce的HBase集群间迁移

发布时间:2017-02-21 19:57:11 浏览:2511 回帖 :1

E-MapReduce提供HBase服务,本文介绍了几种HBase集群间迁移的方法

OSS hbase hdfs hadoop Apache path 集群 数据迁移 迁移 e-mapreduce Driver Create Mapreduce

“迁移前,两个集群的hbase要停止写入,否则会报类似"Multiple regions have the same startkey: "的错”

开源大数据EMR 发表了文章:

【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法

发布时间:2019-07-16 14:46:51 浏览:530 回帖 :0

现在还没有一个统一的流式SQL语法标准,各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题,社区版本在流式SQL上迟迟没有动作。EMR Spark在...

云栖社区 系统软件 系统研发与运维 网络与数据通信 大数据 SQL Apache Image 流式计算 表达式

开源大数据EMR 发表了文章:

E-MapReduce产品探秘,扩展开源生态云上的能力

发布时间:2019-07-08 18:48:24 浏览:195 回帖 :0

E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。

云栖社区 编程语言 系统研发与运维 大数据 aliyun e-mapreduce EMR

开源大数据EMR 发表了文章:

使用Spark Streaming SQL基于时间窗口进行数据统计

发布时间:2019-07-08 10:47:04 浏览:379 回帖 :0

使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理,同时Spark Streaming SQL提供的时间窗口函数可以将事件时间按照一定的时间区间对数据进行统计操作。 ...

系统软件 数据存储与数据库 系统研发与运维 大数据 SQL 日志 spark 流式计算 Create Group 数据统计

开源大数据EMR 发表了文章:

【译】使用Spark SQL 运行大规模基因组工作流

发布时间:2019-07-07 14:06:25 浏览:571 回帖 :0

https://databricks.com/blog/2019/06/26/scaling-genomic-workflows-with-spark-sql-bgen-and-vcf-readers...

python 大数据 SQL spark DataFrame 存储 数据类型 数组 工作流

开源大数据EMR 发表了文章:

【译】数据湖正在成为新的数据仓库

发布时间:2019-07-07 13:01:30 浏览:809 回帖 :0

原文链接 https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html...

大数据 Apache 人工智能 数据仓库 Hive 存储 数据存储

开源大数据EMR 发表了文章:

钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

发布时间:2019-07-02 14:31:09 浏览:433 回帖 :0

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。

云栖社区 系统软件 数据存储与数据库 系统研发与运维 大数据 集群 Image 钉钉 e-mapreduce EMR 高性能

开源大数据EMR 发表了文章:

钉钉群直播【Koalas 介绍】

发布时间:2019-07-02 11:10:00 浏览:470 回帖 :0

将每个关联结果都作为relational cache构建代价太大,并不现实,我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式,从而在加速用户查询的同时,减少创...

云栖社区 数据存储与数据库 系统研发与运维 分布式 大数据 Apache 钉钉 spark pandas EMR

开源大数据EMR 发表了文章:

【译】Spark-Alchemy:HyperLogLog的使用介绍

发布时间:2019-07-01 10:46:03 浏览:414 回帖 :0

原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html] 译者:辰石,阿里巴巴...

大数据 算法 性能 spark 数据结构 存储

开源大数据EMR 发表了文章:

【译】Spark NLP使用入门

发布时间:2019-07-01 09:46:00 浏览:875 回帖 :1

原文链接: [https://www.kdnuggets.com/2019/06/spark-nlp-getting-started-with-worlds-most-widely-used-nlp...

python 深度学习 大数据 性能 集群 spark

开源大数据EMR 发表了文章:

Spark内置图像数据源初探

发布时间:2019-06-26 14:34:05 浏览:662 回帖 :0

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象...

云栖社区 编程语言 移动开发与客户端 大数据 Apache Image spark DataFrame string 存储 安全问道

开源大数据EMR 发表了文章:

钉钉群直播【Spark Relational Cache 原理和实践】

发布时间:2019-06-24 10:43:26 浏览:8138 回帖 :0

主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的...

云栖社区 系统软件 数据存储与数据库 系统研发与运维 大数据 hadoop Apache Cache 钉钉 spark EMR Hive 分布式系统

5
暂未提供

感兴趣or擅长的领域:

暂无
更多>
xiajunluan
xiajunluan
文章:0丨 粉丝:155丨 话题:0
蓝天0802
蓝天0802
文章:6丨 粉丝:155丨 话题:0
鸿初
鸿初
文章:21丨 粉丝:177丨 话题:0
eric-li
eric-li
文章:5丨 粉丝:160丨 话题:0
云学习小组
云学习小组
文章:192丨 粉丝:42925丨 话题:0
健身不健身
健身不健身
文章:2丨 粉丝:699丨 话题:0
更多>
游客vg47k6uydhpqu
游客vg47k6uydhpqu
文章:0丨 粉丝:0丨 话题:0
eleatbuns
eleatbuns
文章:0丨 粉丝:0丨 话题:0
游客mnjqconlgxoea
游客mnjqconlgxoea
文章:0丨 粉丝:0丨 话题:0
freehandme
freehandme
文章:0丨 粉丝:0丨 话题:0
测试室
测试室
文章:0丨 粉丝:0丨 话题:0
1840078263285445
1840078263285445
文章:0丨 粉丝:0丨 话题:0
杂志