MaxCompute 学习计划(三)-阿里云开发者社区

MaxCompute 学习计划(三)

2016-12-23 5070

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MaxCompute的MapReduce，Graph，SDK等的技能checklist

MapReduce/Graph

当业务逻辑实在是复杂的时候，用SQL配合UDF(包括UDAF和UDTF)也无法实现的时候，可以使用MapReduce或Graph来实现。

作业

MapReduce

MapReduce文档里的十多个示例程序每个都很重要，务必每个都看懂每行代码的作用。参考链接文档。
使用Eclipse / InteliJ IDEA配置开发环境，可以修改warehouse里的数据然后观察任务的运行结果的变化。
并用客户端工具运行任务，并了解-classpath和-resources参数的区别。
通过System.out和System.err输出日志信息，并使用Logview观察服务器上的日志。
使用开发工具开发实现开窗函数。
了解沙箱。
数加的大数据开发套件里的Open MR里的每个配置，对应到MR的main函数里是什么？可以参考SDK的说明。

Graph

同MR，请至少看懂实例代码。链接文档对理解示例非常有帮助。

重难点

二次排序。数据会先根据PartitionColumns的设置从Map发到不同Reduce后，先经过排序，然后根据OutputGroupingColumns相同的key进入reduce方法。所以OutputGroupingColumns的设置需要是OutputKeySortColumns的子集。理解了这些后也就可以理解为什么文档里的PartitionColumns和OutputGroupingColumns设置的都是一样的。而OutputKeySortColumns是在OutputGroupingColumns的基础上再增加排序列。

        //先把数据PartitionColumns设置分配给不同的Reducer
        job.setPartitionColumns(new String[] { "i1" });

        //在Reducer上执行排序，这样就能保证i2的顺序
        job.setOutputKeySortColumns(new String[] { "i1", "i2" });

        //这里数据已经都是排序好的，只需要根据i1里的内容来判断是否需要进同一个reduce方法
        job.setOutputGroupingColumns(new String[] { "i1" });

资源表和资源文件的使用方法在UDTF的例子也有提到。一般资源的读取可以写在setup里，只需要读一次。

思考题

如果有参数文件为什么不能直接打在jar包里，而是要用资源文件？
阿里集团内部SQL+UDF的任务数远多于MapReduce任务，这个现象最直接的原因是什么？

参考答案

安全沙箱
工程效率

小技巧

SDK 和 Tunnel

使用SDK可以让我们可以使用JAVA/PYTHON语言调用MaxCompute命令。
Tunnel命令可以让我们把数据批量上传/下载。

作业

SDK

参考JAVA SDK / PYTHON SDK，对比客户端的工具里进入项目空间、表操作、实例操作、资源操作、函数操作，是否已经能自己实现呢？
使用JAVA SDK可以到search.maven.org下载javadoc.jar。Python的用户可以参考详细文档。

Tunnel

Jar包下载和Endpoint配置。
UploadSession 和 DownloadSession 的说明。
Tunnel命令行是基于SDK开发的。需要了解命令行工具的基本使用方法。注意上传和下载的参数的用法。

思考题

基于SDK和TUNNEL实现用JAVA/PYTHON代码运行SQL，并把结果保存下来（需要考虑到Project的READ_TABLE_MAX_ROW限制，返回的数据不能超过10000行）。

参考答案

SQLTASK可以跑SQL。可以先把数据保存成一张临时表（CREATE TABLE XXX AS SELECT），并在任务结束后删除。下载数据使用TUNNEL。

小技巧

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

MaxCompute 学习计划(三)

MapReduce/Graph

作业

重难点

思考题

参考答案

小技巧

SDK 和 Tunnel

作业

思考题

参考答案

小技巧

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景