备案控制台

开发者社区

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

Apache Spark Meetup China 第1期最全资料下载

2018-12-17 2242

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 活动时间：2018年12月16日13:30-17:00 活动地点：杭州市余杭区文一西路998号未来科技城海创园4幢801C 主办单位：阿里云、袋鼠云、云栖社区主题介绍：主题一、Spark优化实践-13：30 - 14：30阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作，包括SmartShuffle、file skip index等。

活动时间：2018年12月16日13:30-17:00

活动地点：杭州市余杭区文一西路998号未来科技城海创园4幢801C

主办单位：阿里云、袋鼠云、云栖社区

_2018_12_18_11_24_59

主题介绍：

主题一、Spark优化实践-13：30 - 14：30
阿里云E-MapReduce-王道远
介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作，包括SmartShuffle、file skip index等。

主题二、Spark使用对象存储的机遇和挑战-14：30 - 15：30
阿里云E-MapReduce-余根茂
介绍Spark对对象存储这种类似的访问的原理机制，以及优化的策略

主题三、基于SparkSQL的安防大数据检索分析优化外部-15：30-16：30
杭州海康威视研究院大数据技术部 - 陈国栋

介绍基于SparkSQL构建安防大数据交互式查询分析方面做的工作，有对SparkSQL的优化，也有一些我们自研模块。并希望借此为契机能够让我们的团队更加融入社区，努力服务社区。

加入Spark钉钉群，与专家共同交流

_2018_12_05_4_48_20_meitu_1

ppt链接：
https://yq.aliyun.com/download/3143
https://yq.aliyun.com/download/3144
视频链接：https://yq.aliyun.com/live/719

文章标签：

开源大数据平台 E-MapReduce

Apache

大数据

分布式计算

Spark

关键词：

apache apache spark

apache spark Apache

Apache spark

Apache meetup

apache spark meetup

相关实践学习

数据湖构建DLF快速入门

本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析，介绍数据湖构建DLF产品的数据发现和数据探索功能。

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

社区小助手

目录

相关文章

疯狂的猿

|

3月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

157 0 0

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

70 0 0

xleesf

|

1月前

|

消息中间件分布式计算 Serverless

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

xleesf

51 2 2

晓之以理的喵~~

|

3月前

|

SQL 分布式计算数据处理

Apache Spark简介与历史发展

Apache Spark简介与历史发展

晓之以理的喵~~

79 0 0

Maynor

|

4月前

|

SQL 分布式计算 Apache

流数据湖平台Apache Paimon（六）集成Spark之DML插入数据

流数据湖平台Apache Paimon（六）集成Spark之DML插入数据

Maynor

76 0 0

Maynor

|

4月前

|

SQL 分布式计算 Apache

流数据湖平台Apache Paimon（五）集成 Spark 引擎

流数据湖平台Apache Paimon（五）集成 Spark 引擎

Maynor

72 0 0

程序员三木

|

4月前

|

SQL 分布式计算数据处理

[AIGC] Apache Spark 简介

[AIGC] Apache Spark 简介

程序员三木

29 0 0

桃李春风一杯酒

|

4天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

14 1 1

jerrywangsap

|

2月前

|

分布式计算大数据 Java

Spark 大数据实战：基于 RDD 的大数据处理分析

Spark 大数据实战：基于 RDD 的大数据处理分析

jerrywangsap

120 0 0

晓之以理的喵~~

|

3月前

|

分布式计算监控大数据

Spark RDD分区和数据分布：优化大数据处理

Spark RDD分区和数据分布：优化大数据处理

晓之以理的喵~~

142 0 0

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

JindoFS: 云上大数据的高性能数据湖存储方案

Spark in action on Kubernetes - Playground搭建与架构浅析

JindoFS解析 - 云上大数据高性能数据湖存储方案

基于Alluxio系统的Spark DataFrame高效存储管理技术

漫谈分布式计算框架

JindoFS概述：云原生的大数据计算存储分离方案

5W1H(六何分析法)全景洞察大数据

助力云上开源生态 - 阿里云开源大数据平台的发展

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

EMR Notebook 开启公测，提供交互式数据分析平台

Apache Hadoop入门指南：搭建分布式大数据处理平台

阿里云向量检索 Milvus 版开启公测，助力企业打造高质量 AI 服务

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

实用工具推荐：适用于 TypeScript 网络爬取的常用爬虫框架与库

1688API接口推荐：1688按图搜索拍立淘数据接口

【玩转幻兽帕鲁部署】阿里云幻兽帕鲁服务器搭建1分钟搞定：从入门到精通

轻喜到家基于 EMR-StarRocks 构建实时湖仓分析平台实践

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Apache Flink技术进阶

Apache Spark: Cloud and On-Prem

Hybrid Cloud and Apache Spark

推荐镜像

更多

apache

packman

CPAN

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）