灵活运用DataWorks参数配置

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 大家好,本文中笔者要跟大家探讨一下众多DataWorks用户经常遇到的一类问题,就是在DataWorks中如何灵活运用参数配置这个功能。很多用户的需求场景是和时间有关的。为使周期运行的任务能根据运行时间的变化而变化,DataWorks提供了系统参数和自定义参数等两种参数,供用户来使用。

数据工场DataWorks (原大数据开发套件Data IDE) 是基于MaxCompute作为计算和存储引擎的,并用于工作流可视化开发和托管调度运维的海量数据离线分析平台。DataWorks可以按照时间和依赖关系,实现任务的全面托管和调度。在这里,笔者跟大家探讨一下众多DataWorks用户经常遇到的一类问题,就是在DataWorks中如何灵活运用参数配置这个功能。

很多用户的需求场景是和时间有关的。为使周期运行的任务能根据运行时间的变化而变化,DataWorks提供了系统参数和自定义参数等两种参数,供用户来使用。下面来具体介绍下。

一、系统参数

DataWorks(数据工场)提供了 2 个系统参数,定义如下:
${bdp.system.cyctime}:定义为一个实例的定时运行时间,默认格式为: yyyymmddhh24miss。
${bdp.system.bizdate}:定义为一个实例运行时对应的业务日期,业务日期默认为运行日期的前一天,默认以 yyyymmdd 的格式显示。

从定义可知,运行时间和业务日期有如下计算公式:运行时间=(业务日期+1)+定时时间。
若使用系统参数,可以直接在代码中引用 ${bdp.system.bizdate}${bdp.system.cyctime} 即可,系统在调度运行时将自动把这两个参数替换成相应的时间。
很多用户的周期任务都是和日期/时间有关的,比如某用户的一个周期任务,每天都要处理昨天产生的业务数据,用户需要先按照昨天的日期创建一个分区,然后再把昨天的相关数据写入到该分区下。这里以每天周期运行,生成一个新的分区为例,为大家演示如何灵活利用好这两个系统参数。

image

如上图所示,首先新建一个分区表tbltest1,分区字段有3个,分别是sale_biz_date ,sale_curtime 和 region,其中sale_biz_date代表业务日期,sale_curtime代表运行时间,region代表区域。
上图中,sql任务的目的是,为表tbltest1增加一个分区,分区中使用了2个系统参数,每次运行该任务时,这两个系统参数${bdp.system.bizdate}${bdp.system.cyctime}都会被分别替换成具体日期和时间。

image

如上图所示,在这个sql周期任务的“调度配置”处,设置成小时周期任务,并且从0点开始,每小时执行一次,这样1天理论上每个小时就会产生一个实例。
通过上图的设置,每个小时都会运行一次这个sql任务。在DataWorks的“运维中心”——“任务运维”——“周期实例”下可以看到每个小时都会产生一个任务实例,如下图所示。

image

点击进到某个任务实例,比如0点这个实例,点击工作流中对应的sql任务节点,点击“运行日志”,能看到在日志中,sql语句alter table tbltest1 add partition(sale_biz_date='${bdp.system.bizdate}',sale_curtime='${bdp.system.cyctime}', region='china');中的系统参数${bdp.system.bizdate}已经被替换成了20180304,而${bdp.system.cyctime}已经被替换成了20180305000000。这正是符合我们的预期的。

image

上图是0点产生的实例,我们看下下面1点产生的实例进行验证。
我们可以通过下图看到,在凌晨1点时产生的实例,点击工作流中对应的sql任务节点,点击“运行日志”,能看到在日志中,sql语句alter table tbltest1 add partition(sale_biz_date='${bdp.system.bizdate}',sale_curtime='${bdp.system.cyctime}', region='china');中的系统参数${bdp.system.bizdate}已经被替换成了20180304,而${bdp.system.cyctime}已经被替换成了20180305010000。同样,这正是符合我们的预期的。

image

二、自定义参数

当使用自定义参数时:
非 Shell 类型的脚本或任务:需要先在代码中编辑 ${key1},${key2},然后在 参数 编辑框输入 “key1=value1 key2=value2” 方可生效。
Shell 类型的脚本或任务:需要先在代码中编辑 $1 $2 $3,然后在 参数 编辑框 “value1 value2 value3” 方可生效。
我们这里以非shell类型脚本为例,进行介绍。

很多客户有特殊的需求,系统参数已经不能满足其需求了。比如客户当时运行的任务,想取当前时间中的年或月,或者想取前N天或后N天的时间。这时,自定义参数便能满足客户的需求。
这里请注意,自定义参数是基于bdp.system.cyctime进行计算取值的,也就是基于运行时间进行取值的。例如“key1=$[yyyy]”表示按 bdp.system.cyctime 的值取年的部分作为结果替换该参数。

可供参考的自定义参数配置方式如下:

后N年:$[add_months(yyyymmdd,12*N)]
前N年:$[add_months(yyyymmdd,-12*N)]
后N月:$[add_months(yyyymmdd,N)]
前N月:$[add_months(yyyymmdd,-N)]
后N周:$[yyyymmdd+7*N]
前N周:$[yyyymmdd-7*N]
后N天:$[yyyymmdd+N]
前N天:$[yyyymmdd-N]
后N小时:$[hh24miss+N/24]
前N小时:$[hh24miss-N/24]
后N分钟:$[hh24miss+N/24/60]
前N分钟:$[hh24miss-N/24/60]

通过上述自定义参数配置方式,我们可以发现一个规律,前四个自定义参数配置方式中,add_months里面的数字的单位是月,所以后N年的配置中,N才会乘上12;其他的自定义参数配置中,中括号中的数字的单位是天,所以后N周的配置中,N才会乘上7。
比如,有某用户的需求是,其ODPS_SQL 任务为按小时调度,每隔 1 小时执行一次,代码中有两个自定义参数 thishour 和 lasthour,操作如下:
在DataWorks “数据开发”中,sql代码如下:

insert overwrite table tb1 partition(ds ='20150304') select
c1,c2,c3
from (
select * from tb2
where ds ='${thishour}') t
full outer join(
select * from tb3
where ds = '${lasthour}') y
on t.c1 = y.c1;

配置为每小时一次的调度,如下图:

image

自定义参数配置为:thishour=$[yyyy-mm-dd/hh24:mi:ss]
即当前的运行时间;lasthour =$[yyyy-mm-dd/hh24:mi:ss-1/24],即当前运行时间的上一个小时的时间。

image

在周期性任务提交后的第二天,在运维中心可以看到系统自动按时间周期生成的运行实例。例如在 2017 年 07 月 16 日这一天,系统为该任务每小时生成一个实例。运行日期为 2017 年 07 月 16 日,因此 ${bdp.system.cyctime} 的日期部分应当是 20170716。
先看下20170716生成的第一个实例,即0点的实例,看下日志中,如下图:

image

第一个实例定时时间为 2017-07-16 00:00:00,那么 thishour 替换的结果为 2017-07-16/00:00:00,lasthour 替换的结果为 2017-07-15/23:00:00。同理,第二个实例定时时间为 2017-07-16 01:00:00,那么 thishour 替换的结果为 2017-07-16/01:00:00,lasthour 替换的结果为 2017-07-16/00:00:00。如下图所示。

image

上面介绍了DataWorks参数调度中系统参数和自定义参数的使用方法,请大家注意到:运行时间=(业务日期+1)+定时时间,即运行时间和业务日期之间的关系。后续,笔者还会更新大家在使用参数调度中遇到的一些问题,敬请关注,谢谢。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
3天前
|
分布式计算 DataWorks 调度
DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
17 0
|
3天前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
17 0
|
4天前
|
Web App开发 DataWorks 监控
DataWorks产品使用合集之在 DataWorks 上,查看节点的配置信息如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
18 1
|
4天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之DataWorks项目分配与安全项目权限配置的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
17 2
|
4天前
|
存储 分布式计算 DataWorks
DataWorks产品使用合集之在DataWorks中,配置时间属性调度周期如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
23 2
|
4天前
|
SQL DataWorks 监控
DataWorks产品使用合集之在DataWorks配置监控规则时,比较两张表的计算结果是否相同的方法如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0
|
4天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之DataWorks中,填写ODPS SQL任务中的参数和分区信息如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
17 0
|
4天前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之在DataWorks中,通过脚本模式来配置同步任务的读取端的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
17 0
|
4天前
|
存储 DataWorks 安全
DataWorks产品使用合集之DataWorks的任务查看上限进行配置如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
23 2
|
4天前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之DataWorks基础属性:调度参数典型场景配置示例如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
19 0