备案控制台

开发者社区

开发者社区大数据文章正文

【Spark Summit East 2017】通过Simplicity进行扩展：如何使3亿用户的聊天应用的数据工程量减少70%

2017-02-20 1565

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Joel Cumming在Spark Summit East 2017上的演讲，主要分享了使得3亿用户的聊天应用的数据工程量减少70%的8件事情，Joel Cumming与他的团队将数据栈从系统和进程的复杂结合体带入到可扩展、简单并且健壮的基于Spark和Databricks平台上，该平台将会使任何一家公司丢可以超级简单地使用数据。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Joel Cumming在Spark Summit East 2017上的演讲，主要分享了使得3亿用户的聊天应用的数据工程量减少70%的8件事情，Joel Cumming与他的团队将数据栈从系统和进程的复杂结合体带入到可扩展、简单并且健壮的基于Spark和Databricks平台上，该平台将会使任何一家公司丢可以超级简单地使用数据。

064c2c8837a93c4e8020368193200360b4b65352

24f7c3b11a321d4f9a636e6af51cde6102061c3a

90ac63cf3b7f29e85db75cc9136f76793c6f52ff

46f66b5bd97677768969a8f40bf5b3379927729a

74d3c5e46e1d29165830544080dadc3ce62aa291

8a5cebbe060b638fc88f86e55362e68e7455b507

3ddf2e17762b709c347a602ab78e8c8e21d70ba7

c181b4f53e991d1256c7afe262050f61d6d9a8a3

0311dd1a2482a585780619c6be78b20526e62045

2a2032183e982ef6adbacb964ec7157419e6a093

5818414e5049e939635694421c8e9987272ee174

01c2af70646fb1777f0b06a3900425a758851b49

a73bcabdf0d51eca550578de415c41cf628dc8c0

2515bbd55e686bdad48c3108d79f390f7c0e35c6

bccfb2809216ec8b8dc7da127725eecceeeef376 cbeea987f35912d4843be0d4c69cac5e2dc0c446 efa2fed1a18541409e5dfa9aea6421bbc151ef97

cbeea987f35912d4843be0d4c69cac5e2dc0c446

2a2dfc27b168758dfaa6a0e7bae216439c5af279

069f7241474cf6bf289f5b0b30936bf55f72068f

1f986f526698fbb38f6bab0db4d37739586b38f8

7208213b2ddb2c32556df6050a209dbc9b7d8dc6

824f62430bbd03a60e314b8eed9bdc1a9e1d5e24

c040a342ad3967eacc9772af71b0591b95bb8aee

5fa59682aa5672dcf158f004f1b1b6453972f2c9

4da7ce12447bbfd88cf74fb54ac8716d44d934ab

004c204666d021d1a2176579e72146e4b84c0e64

53afd089511b604d80cc5cae255f27bb996b4949

9cfa22f955aef4a79f867b0868ecbaa82466b90d

文章标签：

大数据

分布式计算

Spark

关键词：

apache spark数据

apache spark应用

apache spark扩展

apache spark summit

apache spark summit east

小猫吃鱼569

目录

相关文章

疯狂的猿

|

3月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

157 0 0

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

70 0 0

建模sister

|

2月前

|

SQL 分布式计算 API

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

Spark学习------SparkSQL（概述、编程、数据的加载和保存）

建模sister

50 2 2

建模sister

|

1月前

|

SQL 分布式计算 Java

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

建模sister

75 1 1

sunrr

|

1月前

|

存储分布式计算 API

adb spark的lakehouse api访问内表数据，还支持算子下推吗

【2月更文挑战第21天】adb spark的lakehouse api访问内表数据，还支持算子下推吗

sunrr

107 2 2

疯狂的猿

|

1月前

|

机器学习/深度学习分布式计算监控

典型的Spark应用实例

典型的Spark应用实例

疯狂的猿

40 1 1

晓之以理的喵~~

|

3月前

|

分布式计算分布式数据库 API

Spark与HBase的集成与数据访问

Spark与HBase的集成与数据访问

晓之以理的喵~~

69 0 0

晓之以理的喵~~

|

3月前

|

SQL 分布式计算测试技术

使用UDF扩展Spark SQL

使用UDF扩展Spark SQL

晓之以理的喵~~

38 0 0

晓之以理的喵~~

|

3月前

|

JSON 分布式计算关系型数据库

Spark中使用DataFrame进行数据转换和操作

Spark中使用DataFrame进行数据转换和操作

晓之以理的喵~~

92 0 0

晓之以理的喵~~

|

3月前

|

存储分布式计算调度

Spark任务调度与数据本地性

Spark任务调度与数据本地性

晓之以理的喵~~

29 0 0

热门文章

最新文章

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

大数据技术与Python：结合Spark和Hadoop进行分布式计算

bigdata-36-Spark转换算子与动作算子

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

sparkRDD 算子的创建和使用

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

Spark RDD类源码阅读

大数据技术与Python：结合Spark和Hadoop进行分布式计算

bigdata-36-Spark转换算子与动作算子

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark环境搭建与使用

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

使用内置公开数据集快速体验MaxCompute

使用EDA架构部署在线外卖订单系统

通过FastMR自动拉起大数据集群并运行TPCDS任务

基于函数计算快速搭建Zblog等传统应用框架

基于函数计算一键部署掌上游戏机

基于函数计算一键部署简易论坛

下一篇

阿里云oss简介和使用流程