开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

欢迎加入Spark中国社区

2018-11-09 8538

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 欢迎大家关注Spark中国社区！社区成员会定期把Spark（全球）社区的最新发布、文档等翻译后放到社区，并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动，非常欢迎大家加入社区，对于发帖、提问、答疑的同学，社区会给予特色的奖励 Spark社群钉钉群

欢迎大家关注Spark中国社区！

社区成员会定期把Spark（全球）社区的最新发布、文档等翻译后放到社区，并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动，非常欢迎大家加入社区，对于发帖、提问、答疑的同学，社区会给予特色的奖励

Spark社群钉钉群

5d04ff46f02e3a96f534dbd189b4070e105996dc

文章标签：

开源大数据平台 E-MapReduce

分布式计算

Spark

关键词：

apache spark社区

相关实践学习

数据湖构建DLF快速入门

本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析，介绍数据湖构建DLF产品的数据发现和数据探索功能。

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

黯灭_邓彬

阿里云E-MapReduce团队

存储机器学习/深度学习分布式计算

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。

阿里云E-MapReduce团队

4280 0 0

10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】

阿里云E-MapReduce团队

机器学习/深度学习分布式计算并行计算

10月15日社区直播【Intel MLlib：构建平台优化的Spark机器学习】

Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时，在底层利用原生算法库来实现在CPU和GPU上的最优化算法，同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明，该软件包在最小化应用改动的基础上，可以极大地提升MLlib算法的性能。

阿里云E-MapReduce团队

2890 0 0

10月15日社区直播【Intel MLlib：构建平台优化的Spark机器学习】

阿里云E-MapReduce团队

存储 SQL 分布式计算

9月10日 Spark 社区直播【利用持久内存提速Spark】

主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。

阿里云E-MapReduce团队

3229 0 0

阿里云E-MapReduce团队

SQL 存储缓存

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化，使用索引和缓存来解决交互式查询性能挑战。

阿里云E-MapReduce团队

1744 0 0

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

阿里云E-MapReduce团队

分布式计算大数据 Apache

稳赚不赔～Spark社区招募志愿者！

可能是21世纪唯一不看颜值只看人品的招募

阿里云E-MapReduce团队

811 0 1

阿里云E-MapReduce团队

机器学习/深度学习 SQL 分布式计算

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

为什么要优化spark时间窗口 - 未加速前面临问题 - 为什么要使用llvm加速而不是继续优化jvm codegen - 实现介绍-llvm 版本sql引擎设计 - 如何与spark集成 - benchmark数据 vs spark3.0

阿里云E-MapReduce团队

879 0 0

阿里云E-MapReduce团队

机器学习/深度学习 SQL 分布式计算

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大我们是如何解决这些问题相对传统实现方式我们优势 SparkSQL实时上线demo

阿里云E-MapReduce团队

675 0 0

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

开源大数据EMR

分布式计算数据可视化 IDE

5月21日 Spark 社区直播【Spark on Zeppelin】

Apache Zeppelin 是一个交互式的大数据开发Notebook，从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势：不需要编译Jar，环境配置简单，交互式开发，数据结果可视化等等。本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。

开源大数据EMR

764 0 1

开源大数据EMR

机器学习/深度学习人工智能分布式计算

5月14日Apache Spark中国社区技术直播【Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏】

近年来，由于对通用人工智能研究的潜在价值，训练AI玩游戏一直是一个火热的研究领域。FIFA实时视频游戏场景复杂，需要结合图像，强化学习等多种不同的AI技术，同时也要求agents响应有实时性，因此是一个非常好的试验场，可以用来探索不同类型的AI技术。本次分享主要介绍我们在训练AI玩FIFA视频游戏方面的一些工作。

开源大数据EMR

676 0 0