欢迎加入Spark中国社区

简介: 欢迎大家关注Spark中国社区! 社区成员会定期把Spark(全球)社区的最新发布、文档等翻译后放到社区,并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动,非常欢迎大家加入社区,对于发帖、提问、答疑的同学,社区会给予特色的奖励 Spark社群钉钉群

欢迎大家关注Spark中国社区!


社区成员会定期把Spark(全球)社区的最新发布、文档等翻译后放到社区,并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动,非常欢迎大家加入社区,对于发帖、提问、答疑的同学,社区会给予特色的奖励


Spark社群钉钉群

5d04ff46f02e3a96f534dbd189b4070e105996dc

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
存储 机器学习/深度学习 分布式计算
10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】
介绍如何利用持久化内存与高性能RDMA 网络来加速Spark Shuffle。
10月29日社区直播【Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析】
|
机器学习/深度学习 分布式计算 并行计算
10月15日社区直播【Intel MLlib:构建平台优化的Spark机器学习】
Intel MLlib是一个为Apache Spark MLlib优化的软件包。它在保持和Spark MLlib兼容的同时,在底层利用原生算法库来实现在CPU和GPU上的最优化算法,同时使用Collective Communication来实现效率更高的节点间通信。我们的初步结果表明,该软件包在最小化应用改动的基础上,可以极大地提升MLlib算法的性能。
10月15日社区直播【Intel MLlib:构建平台优化的Spark机器学习】
|
存储 SQL 分布式计算
9月10日 Spark 社区直播【利用持久内存提速Spark】
主要探讨如何在Spark上使用持久内存这一新技术来进一步提速性能。具体会介绍基于Plasma的共享内存方案来提速SQL数据源访问的性能以及利用持久内存扩展Spark现有内存磁盘存储层级来提速RDD cache在迭代式计算中的效果。
9月10日 Spark 社区直播【利用持久内存提速Spark】
|
SQL 存储 缓存
8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
简单介绍OAP的总体蓝图。同时详细介绍其中的一个具体优化,使用索引和缓存来解决交互式查询性能挑战。
8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
|
分布式计算 大数据 Apache
稳赚不赔~Spark社区招募志愿者!
可能是21世纪唯一不看颜值只看人品的招募
稳赚不赔~Spark社区招募志愿者!
|
机器学习/深度学习 SQL 分布式计算
7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】
为什么要优化spark时间窗口 - 未加速前面临问题 - 为什么要使用llvm加速而不是继续优化jvm codegen - 实现介绍-llvm 版本sql引擎设计 - 如何与spark集成 - benchmark数据 vs spark3.0
7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】
|
机器学习/深度学习 SQL 分布式计算
6月23日 Spark 社区技术直播【半小时,将你的Spark SQL模型变为在线服务】
SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大 我们是如何解决这些问题 相对传统实现方式我们优势 SparkSQL实时上线demo
6月23日 Spark 社区技术直播【半小时,将你的Spark SQL模型变为在线服务】
|
分布式计算 数据可视化 IDE
5月21日 Spark 社区直播【Spark on Zeppelin】
Apache Zeppelin 是一个交互式的大数据开发Notebook,从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势:不需要编译Jar,环境配置简单,交互式开发,数据结果可视化等等。 本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。
5月21日 Spark 社区直播【Spark on Zeppelin】
|
机器学习/深度学习 人工智能 分布式计算
5月14日Apache Spark中国社区技术直播【Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏】
近年来,由于对通用人工智能研究的潜在价值,训练AI玩游戏一直是一个火热的研究领域。FIFA实时视频游戏场景复杂,需要结合图像,强化学习等多种不同的AI技术,同时也要求agents响应有实时性,因此是一个非常好的试验场,可以用来探索不同类型的AI技术。本次分享主要介绍我们在训练AI玩FIFA视频游戏方面的一些工作。
5月14日Apache Spark中国社区技术直播【Analytics Zoo上的分布式TensorFlow训练AI玩FIFA足球游戏】
|
机器学习/深度学习 人工智能 分布式计算
4月29日Spark社区直播【用Analytics-Zoo实现基于深度学习的胸腔疾病AI诊疗辅助】
本次分享主要介绍如何利用Analytics Zoo和NIH胸部X光影像数据集,在Apache Spark集群上实现基于深度学习的胸腔疾病分类,为医生提供端到端的胸腔疾病AI诊疗辅助。
4月29日Spark社区直播【用Analytics-Zoo实现基于深度学习的胸腔疾病AI诊疗辅助】