阿里云E-MapReduce团队 + 关注

阿里云E-MapReduce团队 发表了文章:

数据湖正在成为新的数据仓库

发布时间:2019-07-08 10:58:25 浏览:3071 回帖 :0

新一代数据仓库实际上是数据湖,对那些用于构建和训练机器学习模型的清洗,整合和验证的数据进行管理。例如,去年秋天在Amazon re:Invent 大会上,亚马逊网络服务公布了AWS Lake Form...

云栖社区 系统软件 移动开发与客户端 大数据 Apache 人工智能 数据仓库 Hive 存储 数据存储 安全问道

阿里云E-MapReduce团队 发表了文章:

EMR Spark Runtime Filter性能优化

发布时间:2019-07-05 11:17:37 浏览:733 回帖 :0

Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查...

安全与风控 编程语言 系统研发与运维 大数据 性能优化 性能 runtime spark EMR 存储 安全问道

阿里云E-MapReduce团队 发表了文章:

钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

发布时间:2019-07-02 14:27:52 浏览:632 回帖 :0

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。

nginx 系统软件 数据存储与数据库 大数据 集群 Image 钉钉 e-mapreduce EMR 高性能 安全问道

阿里云E-MapReduce团队 发表了文章:

钉钉群直播【Koalas 介绍】

发布时间:2019-07-02 11:02:49 浏览:676 回帖 :0

Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koala...

云栖社区 数据存储与数据库 系统研发与运维 分布式 大数据 Apache 钉钉 spark pandas EMR

阿里云E-MapReduce团队 发表了文章:

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

发布时间:2019-07-01 11:24:07 浏览:5070 回帖 :0

我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式,从而在加速用户查询的同时,减少创建和更新relational cache的代价。Record Preserv...

云栖社区 数据存储与数据库 系统研发与运维 大数据 Cache spark EMR 多维分析

阿里云E-MapReduce团队 发表了文章:

使用Spark SQL进行流式机器学习计算(上)

发布时间:2019-06-27 11:17:41 浏览:1450 回帖 :0

什么是流式机器学习, 机器学习模型获取途径, 系统演示

云栖社区 编程语言 数据存储与数据库 系统研发与运维 网络与数据通信 linux 大数据 算法 SQL 测试 spark aliyun MLlib string UDF

阿里云E-MapReduce团队 发表了文章:

钉钉群直播【Spark Relational Cache 原理和实践】

发布时间:2019-06-24 10:39:30 浏览:1119 回帖 :0

主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的...

云栖社区 编程语言 网络与数据通信 大数据 hadoop Apache Cache 钉钉 spark EMR Hive 分布式系统 安全问道

阿里云E-MapReduce团队 发表了文章:

Spark Streaming 框架在 5G 中的应用

发布时间:2019-06-21 10:48:15 浏览:878 回帖 :0

在发展 5G 和 IoT 场景的准备阶段,爱立信研究了各种可扩展和灵活的流处理框架,以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使...

nginx 编程语言 性能 Apache spark Cassandra 电信 Blog 数据存储 安全问道 流数据

阿里云E-MapReduce团队 发表了文章:

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

发布时间:2019-06-17 15:47:19 浏览:1010 回帖 :0

mlflow为企业提供一套开源的机器学习端到端工具,同时,project hydrogen项目旨在将AI框架与Spark更好的结合。本次直播介绍mlflow的场景和使用方式,project hydro...

数据存储与数据库 深度学习 大数据 hadoop 钉钉 spark EMR 天池直播

阿里云E-MapReduce团队 发表了文章:

通过Spark SQL实时归档SLS数据

发布时间:2019-06-17 15:37:00 浏览:1047 回帖 :0

流式计算和SQL 简要介绍Spark SQL流式开发语法 实时归档SLS数据到HDFS

云栖社区 数据存储与数据库 系统研发与运维 网络与数据通信 hdfs SQL SLS 配置 spark 流式计算 离线分析 schema Create

阿里云E-MapReduce团队 发表了文章:

Spark内置图像数据源初探

发布时间:2019-06-15 00:18:37 浏览:1515 回帖 :1

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象...

Image spark scala DataFrame string EMR 存储 图像 saprk

阿里云E-MapReduce团队 评论了文章:

Apache Spark中国技术交流群升级到企业群啦!!!!!!

发布时间:2019-05-24 15:17:37 浏览:1315 回帖 :4

普通群容量已满足不了Spark群众日益增长的热情,因此我们做了一个重要的决定,将全部群成员转移到企业群

云栖社区 系统软件 数据存储与数据库 系统研发与运维 Apache Image 钉钉 spark 机器人

“私信钉钉群管理员领取社区礼物”

阿里云E-MapReduce团队 发表了文章:

使用EMR Spark Relational Cache跨集群同步数据

发布时间:2019-06-05 18:28:48 浏览:1231 回帖 :0

Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度,Relationa...

云栖社区 系统软件 数据存储与数据库 大数据 Json 数据处理 数据仓库 集群 Cache 同步 spark string EMR 数据同步 分区表

阿里云E-MapReduce团队 发表了文章:

漫谈分布式计算框架

发布时间:2019-06-05 18:23:24 浏览:9611 回帖 :3

本文主要谈了一些分布式计算框架方面的心得。

云栖社区 系统软件 数据存储与数据库 分布式 架构 分布式系统与计算 线程 spark pandas 分布式计算 容灾 Mapreduce

阿里云E-MapReduce团队 发表了文章:

钉钉群直播【Structured Steaming的进阶与实践】

发布时间:2019-06-04 12:12:40 浏览:603 回帖 :1

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用,作为实时计算的首选。 本次分享structured steaming的使用,包含spark 2.4...

nginx 编程语言 移动开发与客户端 大数据 SQL 钉钉 spark API e-mapreduce 安全问道

阿里云E-MapReduce团队 参与了问答:

读取emr高安全集群的hbase数据

想问下各位有遇到过这个问题吗:1、使用本地环境(公网环境) 2、读取emr高安全集群的hbase数据 3、通过hbase的thriftserver 9099端口代理 走keytab认证 报认...

“公网环境 怎么理解 走公网验证? 为何不走vpn/nat方式 1、本地环境和EMR交互 不在一个vpc下EMR在线上环境 vpn没有打通线上环境 结果集有多大?,运算倒是可以这样搞,如果是频繁...查看全部>

阿里云E-MapReduce团队 发表了文章:

钉钉群直播【Migration to Apache Spark】

发布时间:2019-05-27 14:33:42 浏览:650 回帖 :0

Spark因其统一引擎、性能、易用性等特点备受青睐,将大数据处理引擎迁移到Spark已经成为一种趋势(比如将Hive迁移到SparkSQL),很多大公司也正在实践。

安全与风控 数据存储与数据库 移动开发与客户端 linux 大数据 性能 Apache 钉钉 spark Hive

阿里云E-MapReduce团队 发表了文章:

Apache Spark中国技术交流群升级到企业群啦!!!!!!

发布时间:2019-05-24 16:10:55 浏览:596 回帖 :0

普通群容量已满足不了Spark群众日益增长的热情,因此我们做了一个重要的决定,将全部群成员转移到企业群

nginx 安全与风控 数据存储与数据库 系统研发与运维 linux Apache Image 钉钉 spark 机器人

阿里云E-MapReduce团队 发表了文章:

使用Relational Cache加速EMR Spark数据分析

发布时间:2019-05-21 14:28:38 浏览:788 回帖 :0

Relational Cache的强大功能赋予了Spark更多的可能,通过Relational Cache,用户可以提前将任意关系型数据(Table/View/Dataset)cache到任意Spar...

安全与风控 编程语言 系统研发与运维 移动开发与客户端 数据处理 Cache 数据分析 spark EMR 安全问道

阿里云E-MapReduce团队 发表了文章:

Spark + AI summit 2019北美技术峰会华丽落幕

发布时间:2019-05-21 11:24:25 浏览:720 回帖 :0

本次SAIC含盖了数据工程与数据科学的内容,包括AI产品化的最佳实践案例分享:超大数据规模下,利用流数据处理确保训练数据更新的时效性,完成数据质量监控,测试以及数据模型服务。也有对流行的软件框架如Te...

nginx 系统软件 互联网产品及应用 深度学习 帮助 大数据 Apache 人工智能 数据分析 spark 流数据

4
暂未提供

感兴趣or擅长的领域:

暂无
更多>
云无谓
云无谓
文章:10丨 粉丝:924丨 话题:0
祥栖
祥栖
文章:4丨 粉丝:3323丨 话题:0
知瑕
知瑕
文章:2丨 粉丝:922丨 话题:0
江宇-燕回
江宇-燕回
文章:1丨 粉丝:787丨 话题:0
诚历
诚历
文章:2丨 粉丝:787丨 话题:0
社区小助手
社区小助手
文章:12丨 粉丝:981丨 话题:0
更多>
Cong Lee
Cong Lee
文章:0丨 粉丝:0丨 话题:0
游客wrhbyd4s5fvx4
游客wrhbyd4s5fvx4
文章:0丨 粉丝:0丨 话题:0
游客k22nl2u7wweoe
游客k22nl2u7wweoe
文章:0丨 粉丝:0丨 话题:0
eryk86
eryk86
文章:0丨 粉丝:0丨 话题:0
游客o7ohufnkm6326
游客o7ohufnkm6326
文章:0丨 粉丝:0丨 话题:0
游客id7hvpoxjbvhy
游客id7hvpoxjbvhy
文章:0丨 粉丝:0丨 话题:0