变而不变:我看分布式系统发展和阿里实践

简介: 本文PPT来自阿里云大数据计算平台资深架构师林伟10月15日在2016年杭州云栖大会上发表的《我看分布式系统发展和阿里实践》。

大数据计算服务(MaxCompute)是一种快速、完全托管的PB/EB级数据仓库解决方案。具备万台服务器扩展能力和跨地域容灾能力,是阿里巴巴内部核心大数据平台,支撑每日百万级作业规模。

MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

相对而言,Reshuffle数据需要落盘,因为Resuffle把多个机器联系起来,出错概率大大增加。但是落盘大大降低了系统的性能,如果只是简单用network的方式来Shuffle数据,则不能容错。

而MaxCompute采用Network-Disk的可自适应性的channel来进行Data-Shuffle。

在MaxComputeAPI取舍中,二八原则体现得十分明显。流计算用户80%对latency更为看重,批处理用户80%对throughput更为看重,我们BI系统希望服务好高频的20%的数据,使得80%的访问都达到毫秒级。

系统设计中常用方法有:空间换时间、时间换空间、API层次设计、系统中层次法。MaxCompute数仓采用层次化设计方法。一致性变强,容量变小,吞吐性能变小,成本变高,问题规模变小。

ef5d695002eb7ff952e034eb1cbd727d5841ce81

5635b4a976e31c6cd65b25b9b833c9a9832d1619

350c90d3cafda246105a23e4ce880c7a11057c07

09da68535be24c6376c7e0762cfb2576121c429d


9e4d8bba47a5f3c39a2f9333b92f3bb1ec1ef36b

95344366390c20783d9134fb8c01b290bda9921e


3c61f453bb3221d23d1ff4477c969b2b52e63bf9

bcbc2899ee952eaa19b58f209a0093447dfcf37f

7bb70c788588a436d8ce6e2413bc37bd27b84661

9f1d9ecb072e58b70d7b0b40498d6f8ef225aaa7

10e7a614e0be35969bb75436f7d57c7642f4cfe1

38aeadff2a2fdcc6c0c1e170414aba3c387020b1

67bfe4028d5b02c9799f7f59b9ccf7bc2cecdb1b


5724339e6626a1ffda0a548e51d2c41f7f472ae3

075feba2cf3fda481ac7bcc9a52ddd586a5e0ed9

7b0b8f7b330800e8f996f44c33daf14c702b7ef7

5c35a5116988e68214d387d44287634d8b316bc2


040208ec591b757c494dc25fe86de8bf55203508

0dc3a1726bd6fb6c7f0de55506800d0b48b0c403

acf0de941280ce414d2529a54e6b299a99618058


c8ef10508da363c35681d76115dd1ac731d383b9

acf0de941280ce414d2529a54e6b299a99618058

cd549c6110a87a775204d3801a133ad1e4789fa9

acf0de941280ce414d2529a54e6b299a99618058

998463a3d22c3bbedd3926bc2beeadfcb5f7a388

ac3e38cdefd667a3abb3d58807858d161f9b88f7

bb037015affae33c7bcc860000133d5639f2b989

ff927e8973c31a6b873f0b439778b60faa6d9886

238605b6dce7f21eab8202293148bd4949622987

9f949ccab874585f11cdb83f36ba10f8b0d7a23d

3ed587ad77e28d6db660fd36be7851e01d804c0b

欢迎加入MaxCompute钉钉群讨论

35a12d1cfb9f44bb6eead5bf43e9e0ca60393eff

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
NoSQL 关系型数据库 MySQL
分布式锁:不同实现方式实践测评
分布式锁:不同实现方式实践测评
28 0
|
6月前
|
SQL 安全 关系型数据库
Seata 解决分布式事务理论与实践(2)
Seata 解决分布式事务理论与实践(2)
Seata 解决分布式事务理论与实践(2)
|
6月前
|
数据库 Nacos 微服务
Seata 解决分布式事务理论与实践(1)
Seata 解决分布式事务理论与实践(1)
|
26天前
|
存储 Java 应用服务中间件
【分布式技术专题】「架构实践于案例分析」盘点互联网应用服务中常用分布式事务(刚性事务和柔性事务)的原理和方案
【分布式技术专题】「架构实践于案例分析」盘点互联网应用服务中常用分布式事务(刚性事务和柔性事务)的原理和方案
48 0
|
5月前
|
负载均衡 Java 应用服务中间件
分布式系列教程(23) -分布式事务解决方案(实践篇)
分布式系列教程(23) -分布式事务解决方案(实践篇)
59 0
|
3月前
|
存储 监控 网络协议
百度基于金融场景构建高实时、高可用的分布式数据传输系统的技术实践
本文将通过一个百度搜索旗下的金融场景案例来分享构建高实时、高可用的分布式数据传输系统的技术实践。
51 0
|
3月前
|
人工智能 Cloud Native PyTorch
阿里云 ACK 云原生 AI 套件中的分布式弹性训练实践
阿里云 ACK 云原生 AI 套件中的分布式弹性训练实践
148654 4
|
8月前
|
存储 分布式数据库 调度
GitHub典藏版!腾讯T14级牛人亲码的分布式数据库实践,再次爆火
数据库就是要做好五件事,存储、事务、查询、复制和其他。而对分布式数据库来说,不仅要继续做这五件事,还要多出一件事,分片。在这六件事中,存储和其他这两件事与单体数据库差不多,难点就在事务、查询、复制和分片这四件。
|
8月前
|
缓存 监控 NoSQL
分布式文件存储与数据缓存 Redis高可用分布式实践(下)(三)
分布式文件存储与数据缓存 Redis高可用分布式实践(下)(三)
|
4月前
|
监控 负载均衡 Dubbo
分布式架构与Dubbo基础入门与实践
分布式架构与Dubbo基础入门与实践
39 1