MaxCompute模板与样例

简介: 代码模板和示例是用户熟悉新产品和提高开发效率的有效方式,studio提供了一系列的开发模板和代码实例。用户可以通过这些功能,快速熟悉MaxCompute,玩转大数据下的程序开发。

1. 简介

  • MaxCompute : 是一种快速、完全托管的数据仓库解决方案,用户可以通过SQL, MR, UDF等接口与其交互。
  • MaxCompute Studio : 是MaxCompute平台提供的安装在开发者客户端的大数据集成开发环境(IDE),是用户与MaxCompute交互的高效工具。
  • 代码模板:让用户更加高效的写一些固定模式的代码,简化很多重复的代码,以提高编码效率。
  • 代码示例:一例胜千言,帮助用户快速熟悉语法,可参考示例编写自己的程序,快速上手。

代码模板和示例是用户熟悉新产品和提高开发效率的有效方式,studio提供了一系列的开发模板和代码实例。用户可以通过这些功能,快速熟悉MaxCompute,玩转大数据下的程序开发。

2. SQL模板

用户常用sql来查询和分析MaxCompute中的大规模数据,是与MaxCompute交互的主要方式(需要注意的是sql语法与Oracle或MySQL有一定差别,用户无法将其他数据库中的sql语句无缝迁移到MaxCompute上来)。一种常见情况是容易忘记sql的语法,在没有studio之前用户只能到处找MaxCompute的文档或者搜寻例子,效率十分地下。Studio在sql editor中集成了丰富的sql模板,方便用户在忘记语法时快速插入语法骨架。譬如我想创建一张外部表,忘记sql怎么写了,只记得肯定有个create关键字。那么可以在editor中通过快捷键(windows: Ctrl + J , mac: Command + J)唤出sql live template,然后输入create,studio就会列出所有创建表的sql模板,如下图:

image

我们选择第一个create external table,然后回车,editor中就会插入外部表的模板,用户继续在模板上修改sql即可:

image

3. 函数帮助样例

用户在写sql的过程中,难免要用到一些系统内置函数(builtin function)或用户自定义函数(user defined function),如果有文档样例或者看下源码知道其逻辑就好了,studio对此也提供了支持。

  • 3.1 对于系统内置函数,我们提供了文档样例说明。譬如我要做日期处理,知道有个函数叫dateadd,但怎么用,入参和出参是什么不是很清楚。很简单,在editor中输入dateadd(),然后快捷键(windows: Ctrl + Q , mac: Ctrl + J)唤出document provider,就会看到一个文档对话框,包括这个函数的参数声明,用途,参数说明,备注和示例,很方便有没有。

image

  • 3.2 对于用户自定义函数,我们提供了源码下载支持。譬如如下test_function_haoping是一个java UDF,我们按住ctrl键(mac: command)并单击,studio就会自动下载这个UDF用到的jar包资源,然后反编译打开UDF代码。

image

4. 程序开发模板

对于UDF,MR以及非结构化开发,框架的模板方法代码如果每次都需要自己输入,效率十分低下。studio为此提供了代码模板支持,具体的,在源码路径上,new -> MaxCompute Java:

image

在Kind下拉列表中选择你需要开发的程序类型(包括UDF,UDAF,UDTF,Driver,Mapper,Reducer,StorageHandler, Extractor,Outputter),点击ok,editor里会自动填充框架代码,只需要继续在其上修改即可。

image

5. 程序开发样例

除了开发模板,对UDF, MR以及非结构化,studio都集成了一些程序样例。具体的,新建一个MaxCompute java module,在examples目录下有各种示例代码及单元测试,用户可参考编写自己的程序。

6. 测试数据样例

studio支持用户在本地运行UDF,MR以及非结构化,而这必然依赖于表的数据。一种方式是通过tunnel下载相应表的生产样例数据,另外也可以参考样例,完全构造自己的测试数据。具体的,参考warehouse下example_project的目录结构以及data,构造自己的测试数据,配置运行时,选择自己构造的表或数据即可。

image

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
28天前
|
SQL HIVE 开发者
Dataphin 内置pyhive使用说明
Dataphin内置pyhive使用说明
|
1月前
|
运维 DataWorks 监控
DataWorks常见问题之如何批量补数据
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
29 1
|
SQL 分布式计算 DataWorks
【MaxCompute 常见问题】 PyODPS
1. PyODPS数据类型如何设置? 如果您使用 PyODPS,可以通过下列方法打开新数据类型开关: 如果通过 execute_sql 方式打开新数据类型,可以执行 o.execute_sql('setodps.sql.type.system.odps2=true;query_sql', hints={"od ps.sql.submit.mode" : "script"})。 如果通过 Dataframe 打开新数据类型
【MaxCompute 常见问题】 PyODPS
|
SQL 分布式计算 Oracle
【MaxCompute 常见问题】 内建函数
如何将 UNIX 时间转换为 MaxCompute 所需日期? 使用 MaxCompute 中的内建函数 FROM_UNIXTIME。此函数是将数字型的 UNIX 时间日期值 unixtime 转为日期值。
【MaxCompute 常见问题】 内建函数
|
SQL 分布式计算 DataWorks
【MaxCompute 常见问题】 快速入门
如何使用 Tunnel 命令导入数据? 可以使用 tunnel upload 命令上传数据至 MaxCompute 表,每一次上传只支持数据上传到一张表或表的一个分区。
【MaxCompute 常见问题】 快速入门
|
数据采集 SQL DataWorks
|
分布式计算 DataWorks Java
|
SQL DataWorks Shell
|
存储 分布式计算 运维
导入MaxCompute数据到日志服务实战
日志服务支持将MaxCompute 中的数据导入到日志服务,利用日志服务的查询和可视化功能,对数据进行分析和可视化展示,使用数据加工对数据进一步处理,充分发掘数据的价值
1341 0
|
分布式计算 DataWorks MaxCompute
DataWorks百问百答13:如何使用pyodps引用资源文件?
DataWorks百问百答13:如何使用pyodps引用资源文件?
3944 0