MaxCompute2.0性能评测：更强大、更高效之上的更快速-阿里云开发者社区

MaxCompute2.0性能评测：更强大、更高效之上的更快速

2017-12-06 3003

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MaxCompute2.0(原Odps)：通过性能评测，MaxCompute2.0离线计算比同类产品Hive2.0 on Tez性能优势快约90%以上；MaxCompute2.0从新一代执行引擎到编译引擎、基于代价的优化器全流程针对性能提升做出了卓越改进。

  MaxCompute2.0(原Odps)：通过性能评测，MaxCompute2.0离线计算比同类产品Hive2.0 on Tez性能优势快约90%以上；MaxCompute2.0从新一代执行引擎到编译引擎、基于代价的优化器全流程针对性能提升做出了卓越改进。

本次评测侧重于已发布的MaxCompute2.0与离线处理同类竞品及线上稳定版本的性能对比，通过测试我们看到MaxCompute2.0在功能上更强大、使用和发布更新更高效、开放生态的同时针对线上作业占比80%以上的Sql以及其中占比约50%的Sql离线批量计算性能有极大提升。

一，新一代执行引擎
 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; MaxCompute2.0开发了新一代执行引擎。新的执行引擎是是基于代码生成(Codegen)的执行引擎，同时采用向量化执行和缓存友好的算法。我们可以看到新一代执行引擎执行比开源社区新一代离线计算执行引擎HiveOnTez性能对比优势显著。
 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 我们记录下在MaxCompute2.0新一代执行引擎和社区新一代离线计算执行引擎HiveOnTez中相同数据量上相同数量执行实例处理的操作时间(单位是秒)，下面的表格能够体现出新的新一代执行引擎的性能。

可以看到，在总体数据量T级别instance数量(百级别)情况，相同数据量相同数量的instance执行性能，MaxCompute2.0执行的平均执行性能优于Hive2.0OnTez(Hive2.0已调整最优)：
              1- sum with group性能快速1倍
              2-sort-merge join提升约2倍以上
              3-hashjoin提升在1倍以上
              4-stremline提升50%以上

二，新的编译引擎和基于代价的优化器
 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; MaxCompute2.0开发了全新的解析器和引入了基于代价的优化器，在兼容Hive语法和语义和开发应用各种基于规则的优化器(Rbo)的前提下，引入和开发了基于统计数据指导下精确的optimizer组件，增加了全新的优化规则。
 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 在新的编译引擎和基于代价的优化器下端至端的执行性能进行评测，MaxCompute2.0离线计算对比社区同类产品Hive2.0 on Tez在最优执行下TPC-H benchmark数据：

img1012_2

测试环境：
    1. 集群规模：30台机器测试集群，其中20台计算节点
    2. 机器配置：22core\96G\千兆全双工网络\每节点12块1TB SATA硬盘
    3. 软件版本：MaxCompute2.0Sp24rc5/hive2.0onTez/MaxCompute1.0Sp23s14/hive2.0onMr
    4. 数据规模：1TB(zlib压缩)

       为了保证数据的合理性，性能测试数据都是每个测试案例完成多轮测试的稳定值，测试搭建使用独立的性能评测集群，测试前清理恢复初始环境，多轮测试非连续执行，连续执行完整个测试集合后再执行下一轮的测试集合。
       图中整体对比数据为：
              1- MaxCompute2.0离线计算比同类产品Hive2.0 on Tez性能优势快约90%以上
              2.MaxCompute2.0执行95%以上基准sql执行比hive快，同时我们分析了内部执行细节，去除调度等其他消耗时间，MaxCompute2.0针对执行的性能改进比Hive2.0提升在114%以上
              3-MaxCompute2.0比MaxCompute1.0性能提升68%
              4-MaxCompute2.0比Hive2.0 on Mr整体优势提升190%，其中77%的基准sql性能提升2x以上
tpch2

三，MaxCompute2.0性能提升及后续性能衍进期待
       1. 兼容社区产品、兼容hive的所有数据类型、遵循SQL 2003、支持多维分组
       2. 研发whole-stage code generation，即通过在运行期间优化那些拖慢整个查询的代码到一个单独的函数中，消除函数调用以及利用CPU寄存器来存放那些中间数据等性能消耗
       3. 更多得优化规则及已有规则的更新升级， Join Reordering全面默认开启，Range partitioning支持等

              基于飞天的一代执行引擎性能有极大提升外，MaxCompute2.0已上线的基于rbo和cbo执行性能优化：
              1- 裁剪规则：列裁剪、分区裁剪、子查询裁剪
              2- 下推／合并规则：谓词下推
              3- 去重规则：Project去重、Exchange去重、Sort去重
              4- 常量折叠／谓词推导
              5- 关联优化：Auto MapJoin、 Skew Join；实现BroadcastHashJoin、ShuffleHashJoin、MergeJoin；Join Reordering
              6- 聚合优化： HashAggregate、SortedAggregate、Deduplicate
              7- 处理优化： GroupBy下推、Exchange下推、Sort下推

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

MaxCompute2.0性能评测：更强大、更高效之上的更快速

热门文章

最新文章

相关课程

相关电子书

相关实验场景