备案控制台

开发者社区

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

2019-07-29 1097

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在数据上云的大背景下，存储计算分离逐渐成为了大数据处理的一大趋势，计算引擎需要通过网络读写远端的数据，很多情况下 IO 成为了整个计算任务的瓶颈，因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法，并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。

直播间直达链接：（回看链接）

时间

7月31日19:00

主讲人：

辰山，阿里巴巴计算平台事业部 EMR 高级开发工程师，目前从事大数据存储方面的开发和优化工作

简介：

在数据上云的大背景下，存储计算分离逐渐成为了大数据处理的一大趋势，计算引擎需要通过网络读写远端的数据，很多情况下 IO 成为了整个计算任务的瓶颈，因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法，并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。
_Apache_Spark____spark_

文章标签：

开源大数据平台 E-MapReduce

缓存

关键词：

钉钉数据

Apache数据

钉钉缓存

apache spark数据

Apache存储

相关实践学习

数据湖构建DLF快速入门

本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析，介绍数据湖构建DLF产品的数据发现和数据探索功能。

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

阿里云E-MapReduce团队

目录

相关文章

xleesf

|

1月前

|

存储缓存分布式计算

Apache Hudi数据跳过技术加速查询高达50倍

Apache Hudi数据跳过技术加速查询高达50倍

xleesf

38 2 2

xleesf

|

1月前

|

分布式计算测试技术 Apache

如何不加锁地将数据并发写入Apache Hudi？

如何不加锁地将数据并发写入Apache Hudi？

xleesf

32 0 0

季风泯灭的季节

|

2月前

|

存储缓存关系型数据库

InnoDB 引擎底层存储和缓存原理

InnoDB 引擎底层存储和缓存原理

季风泯灭的季节

40 0 0

疯狂的猿

|

3月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

159 0 0

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

71 0 0

xleesf

|

1月前

|

Apache 开发者

揭秘！Apache Hudi社区发展数据盘点

揭秘！Apache Hudi社区发展数据盘点

xleesf

32 0 0

xleesf

|

1月前

|

分布式计算 Java 数据管理

使用Apache Hudi + Amazon EMR进行变化数据捕获(CDC)

使用Apache Hudi + Amazon EMR进行变化数据捕获(CDC)

xleesf

87 0 0

xleesf

|

1月前

|

分布式计算大数据测试技术

查询时间降低60%！Apache Hudi数据布局黑科技了解下

查询时间降低60%！Apache Hudi数据布局黑科技了解下

xleesf

22 0 0

xleesf

|

1月前

|

分布式计算测试技术 Apache

如何将数据更快导入Apache Hudi？

如何将数据更快导入Apache Hudi？

xleesf

29 0 0

xleesf

|

1月前

|

消息中间件分布式计算 Kafka

硬核！Apache Hudi中自定义序列化和数据写入逻辑

硬核！Apache Hudi中自定义序列化和数据写入逻辑

xleesf

32 1 1

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

Spark in action on Kubernetes - Playground搭建与架构浅析

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

基于Alluxio系统的Spark DataFrame高效存储管理技术

漫谈分布式计算框架

5W1H(六何分析法)全景洞察大数据

助力云上开源生态 - 阿里云开源大数据平台的发展

Apache Spark 3.0 将内置支持 GPU 调度

Flume NG 简介及配置实战

YARN中的CPU资源隔离-CGroups

基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成（RAG）系统

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

EMR Notebook 开启公测，提供交互式数据分析平台

Apache Hadoop入门指南：搭建分布式大数据处理平台

阿里云向量检索 Milvus 版开启公测，助力企业打造高质量 AI 服务

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

实用工具推荐：适用于 TypeScript 网络爬取的常用爬虫框架与库

1688API接口推荐：1688口令转换真实链接接口

1688API接口推荐：1688按图搜索拍立淘数据接口

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Apache Flink技术进阶

Apache Spark: Cloud and On-Prem

Hybrid Cloud and Apache Spark

相关实验场景

更多

基于DTS构建一站式实时数据服务

基于OpenSearch向量检索版和MaxCompute快速搭建图搜服务

基于Hologres+Flink搭建GitHub实时数据大屏

利用大模型大规模分发技术，实现AIGC在线应用秒级弹性

基于Flink+Tair搭建实时监控大屏

基于数据湖架构的网站访问行为分析

推荐镜像

更多

apache

packman

CPAN

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）