阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识

简介: 基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute(原ODPS)开发入门指南——数据开发工具篇》,那么基于Data IDE进行数据开发想必也遇到一些不少的困惑,就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享,也欢迎拍砖。

阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识

写在最前面

>>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务.

基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute(原ODPS)开发入门指南——数据开发工具篇》,那么基于Data IDE进行数据开发想必也遇到一些不少的困惑,就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享,也欢迎拍砖。

SQL Cost

大数据仓库业务架构

类似于传统数据仓库,我们都会经历ETL的过程,E-数据抽取,T-数据转换,L-数据装载。但在大数据时代下,数据仓库在数据清洗建模过程中,稍微有些不同,准确的说,他是ELT的过程。首先需要将散落在各地的数据统一进行数据采集到大数据计算服务上,这个过程就是E和L。然后基于大数据计算服务的大存储和高性能计算能力进行数据的清洗和转化,也就是T。具体可以见如下图:

SQL Cost

1.数据采集与整合

根据自己公司业务情况,数据大体可以分为云业务系统的数据和本地业务系统的数据。云业务系统数据,可能业务系统已经在云上了,比如数据就在RDS上或者日志数据就在ECS上,这种情况开发成本最低,直接可以使用Log或者Data IDE-数据采集模块进行数据抽取和转载。而本地业务系统数据,可以详见>>>金融云的数据同步处理方式>>>

更多数据上云方式:【MaxCompute(原ODPS)开发入门指南——数据上云篇

SQL Cost

2.数据加工、存储与管理

大数据开发套件Data IDE是基于MaxCompute 之上的数据开发工具,在阿里巴巴集团内部也是身经百战,经历过双11大考,都得益于其背后强大的调度系统。

数据加工清洗建模都需要用户在Data IDE中编辑工作流任务,根据自己的业务逻辑来配置上下游关系和调度时间。支持调度周期类型:天、小时、分钟(5的倍数)、月、周。也就是说在大数据开发套件中如果做数据集成,最小的数据周期颗粒度为5分钟一次。具体可以在调度配置中进行设置:

SQL Cost

只需要进行下拉框配置即可设置工作流任务的调度周期和任务执行时间。

3.数据应用与消费

数据的清洗、加工最终被下游系统所消费,主要会进行报表展示或其他更深层次的挖掘分析。那阿里云Quick BI也与MaxCompute无缝进行对接,也支持将制作好的报表嵌入到第三方系统中。阿里云Quick BI如下示意图:

SQL Cost

SQL Cost

4.数据管理

大家从上面的架构图中也可以看出,数据只有流经MaxCompute才可被记录,包括他的表级别血缘关系和字段级血缘关系。

务必掌握的Data IDE专业术语

  • 项目空间:等同于MaxCompute project,项目空间是大数据开发平台最基本的组织对象,类似于传统数据库的DataBase。大数据开发套件的项目空间,是进行多组织隔离和访问控制的主要边界,也是用户管理表(Table)、资源(Resource)、自定义函数(UDF)、节点(Node)、工作流(WorkFlow)、权限等的基本单元。 在大数据开发平台中,一个项目空间对应绑定一个MaxCompute project。
  • 工作流:工作流是一个DAG图(有向无环图),其描述了作业中多个节点之间的逻辑(依赖关系)和规则(运行约束)。
  • 工作流任务/节点:工作流任务是一个完整的独立调度的整体。工作流节点属于工作流任务的子对象,是数据处理和分析过程的基本单元,每个节点任务对应工作流任务DAG图中的一个节点,其可以是一个SQL Query、命令和MapReduce程序。
  • 节点任务:节点任务也是一个完整的独立调度的整体,也是数据处理和分析过程的基本单元。
  • 依赖关系:描述两个或多个节点/工作流之间的语义连接关系,其中上游节点/工作流的运行状态可以影响下游节点/工作流的运行状态,反之则不成立。
  • 在大数据开发套件中,节点任务在执行时会被实例化,并以MaxCompute实例的形式存在。实例会经历未运行、等待时间/等待资源、运行中、成功/失败几个状态。当天晚上23:30节点转实例!

当天晚上23:30节点转实例!也就是说,在当天23:30之前提交到调度系统的配置项都会转实例即生效,过了这个点提交的任务则需要再隔一天进行生效。这一点务必注意!!!!

  • 资源:资源是大数据开发套件的特有概念,用户可以上传本地自定义的JAR或文件作为资源,在节点运行时调用。如MaxCompute MR需要上传jar包作为资源来进行执行。

角色隔离

在大数据时代,数据是一个公司的生命,在一个团队中如何进行一个角色和权限的隔离,以保障数据的安全性。那Data IDE在角色和权限上也做了很多工作,总体上角色可以分为:组织管理员、项目管理员、开发、运维、部署和访客。具体如下:

SQL Cost

项目空间的设置

在阿里云数加·大数据开发套件中,也提供了多项目空间之间的发布流程,但是在业务划分过程中,需要根据自己公司业务情况来定,一般情况下可以按照如下规则来进行项目的配置:

  1. 创建单个项目空间:适用于业务较单一,成员角色基本一致,无需严格的经过数据开发>测试>预发>生产等开发流程。
  2. 创建开发/生产项目空间:适用于业务相对复杂,又对生产安全性要求很高的,需要经过开发>测试>生产流程。

SQL Cost

↓↓↓↓分割线↓↓↓↓

之前断断续续写了几篇,也有几篇一直是热文,对大家在开发过程中也起到了一定的帮助作用。总体罗列如下,给大家提供个索引:

SQL Cost

【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析

【Best Practice】基于阿里云数加·StreamCompute快速构建网站日志实时分析大屏

【Best Practice】基于阿里云数加·MaxCompute及Quick BI构建网站用户画像分析

【MaxCompute(原ODPS)开发入门指南——计量计费篇

【MaxCompute(原ODPS)开发入门指南——数据上云篇

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

---华丽的分割线---

《云数据·大计算:海量日志数据分析与应用》Workshop-入口

《在线用户行为分析:基于流式计算的数据处理及应用》Workshop-入口

SQL Cost

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
27天前
|
缓存 Kubernetes 网络协议
阿里云DNS常见问题之在手机上使用阿里的私人dns失败如何解决
阿里云DNS(Domain Name System)服务是一个高可用和可扩展的云端DNS服务,用于将域名转换为IP地址,从而让用户能够通过域名访问云端资源。以下是一些关于阿里云DNS服务的常见问题合集:
|
1月前
|
安全 API 持续交付
要利用阿里云控制API查询您的阿里云资源
【2月更文挑战第33天】要利用阿里云控制API查询您的阿里云资源
19 3
|
1月前
|
存储 安全 对象存储
手把手教你搭建阿里云图床(PicGo+Typora+阿里云OSS),新手小白一看就会
本文详细介绍了怎样帮助新手小白从注册,购买阿里云OSS,到一步一步配置OSS做为图床,和PicGo、Typora软件连接,配置好关联之后,在使用Typora写文章时,如果需要插入图片,只需要将图片复制粘贴到Typora的编辑区域,就会自动通过PicGo上传到指定图床,自动复制外网能访问的URL并展示,简直不要太方便,极大的解决了编辑文章时复制处理图片链接的痛点。
170 2
手把手教你搭建阿里云图床(PicGo+Typora+阿里云OSS),新手小白一看就会
|
15天前
|
消息中间件 人工智能 监控
|
1月前
|
人工智能 IDE API
灵动指尖 :阿里云智能编码插件 更好的为IDE内置社区服务
灵动指尖 :阿里云智能编码插件 更好的为IDE内置社区服务
|
1月前
|
存储 弹性计算 大数据
阿里2核4G配置云服务器价格多少钱?阿里云2核4G云服务器531元一年怎么样?
随着云计算技术的日益发展,越来越多的企业和个人开始选择云服务器来满足其数据存储和处理需求。在众多的云服务提供商中,阿里云以其卓越的性能和稳定的服务赢得了广大用户的青睐。 近期,阿里云推出了一系列爆款特惠活动,其中一款2核4G通用算力型u1实例云服务器ECS备受关注。这款云服务器不仅拥有强大的计算能力,还提供了稳定的运行环境,非常适合对性能和稳定性有一定要求的用户。
|
1月前
|
存储 弹性计算 人工智能
阿里服务器租用多少钱一年?阿里云服务器租用收费标准价格表(2024年更新)
阿里服务器租用多少钱一年?阿里云服务器租用收费标准价格表(2024年更新)
|
2月前
|
弹性计算 大数据 测试技术
阿里服务器租用多少钱一年_阿里云服务器租用收费标准价格表(2024年更新)
阿里服务器租用多少钱一年?2024年阿里云服务器租用费用已更新。阿里云服务器分为轻量应用服务器和云服务器ECS,轻量适合个人开发者使用,搭建轻量级的网站、测试环境使用,专业级如大数据、科学计算、高并发网站等需要使用云服务器ECS。阿里云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月,幻兽帕鲁4核16G和8核32G服务器配置。
150 4
|
2月前
|
弹性计算 大数据 测试技术
阿里服务器租用多少钱一年?阿里云服务器租用价格表(最新CPU/内存/带宽/磁盘收费标准)
阿里服务器租用多少钱一年?阿里云服务器租用价格表(最新CPU/内存/带宽/磁盘收费标准)。阿里云服务器的租用费用因实例类型、地域、配置等因素而有所不同,价格范围可以从几百元到几千元不等。2024年阿里云服务器租用费用价格表更新,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月,幻兽帕鲁4核16G和8核32G服务器配置,云服务器ECS可以选择经济型e实例、通用算力u1实
|
3月前
|
人工智能 Cloud Native PyTorch
阿里云 ACK 云原生 AI 套件中的分布式弹性训练实践
阿里云 ACK 云原生 AI 套件中的分布式弹性训练实践
148654 4