新一代大数据引擎操作系统:DataWorks V2.0重磅来袭

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 众所周知,MaxComput与Blink分别是阿里巴巴自主研发的离线计算、实时计算大数据计算引擎,不仅拥有多项国家专利技术,而且多项关键指标已远超业内开源引擎平均能力,名副其实地成为了阿里巴巴大数据之路上的领航者。

认识DataWorks:新一代大数据引擎操作系统

众所周知,MaxComput与Blink分别是阿里巴巴自主研发的离线计算、实时计算大数据计算引擎,不仅拥有多项国家专利技术,而且多项关键指标已远超业内开源引擎平均能力,名副其实地成为了阿里巴巴大数据之路上的领航者。

如果把阿里巴巴大数据计算引擎比作一台PC的CPU,GPU,SSD等硬件设备,那么DataWork就是这台大数据PC的Window操作系统。专业地讲,DataWorks是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。她不仅能令用户通过全可视化的方式调度MaxCompute和Blink开展研发工作,还对租户,账户,计量,计费,调度,运维,监控,安全、质控、分享等功能作了封装,让用户几乎通过零研发成本即可完成所有大数据研发流程的闭环体验。

DataWorks基于MaxCompute、Blink作为核心计算存储引擎,统一集成了任务调度、元数据管理、权限管理、智能运维于DataOS Kernel,不仅为用户提供了结构化、半结构化、无结构化海量数据的集成传输、离线加工、数据挖掘、数据(安全)治理的能力,而且完美结合了阿里云机器学习PAI平台与云市场,让众多智能数据应用得以普惠大众企业。
image001

DataWorks V2.0功能亮点

(1)更科学的研发理念
提供标准项目模式,也称之为“双项目模式”,即:一个Dataworks项目对应两个MaxCompute项目,其中一个MaxCompute项目作为开发环境,另一个MaxCompute作为生产环境。
在标准模式下,代码调试、任务配置等工作无法在生产环境进行修改,仅能在开发环境调试完成后提交至生产环境调度运行,有效保证了生产环境代码稳定性;同时标准模式可对表权限进行严格管控,禁止随意操作生产环境的表,保证生产表的数据安全,通过产品化的方式为用户落实安全生产方法论。
image003

(2)更爽快的SQL代码编辑器
DataWorks新一代智能SQL编辑器提供了十分爽朗的SQL体验,用户不仅能在编写代码的过程中体验代码格式化、代码补齐、关键词高亮、错误提示、表结构浮动显示的开发体验,而且能通过“结构”功能直观查看并点击定位SQL内部结构,提升研发人员分析SQL语句的效率。
image005

(gif动图:SQL格式化+补齐+高亮+错误提示+表结构浮动显示)
image007

(jpg:SQL内部结构展示)

(3)更人性化的开发体验
数据研发模块旧貌焕新颜,发布诸多创新功能提升数据研发工作体验。
◆业务流程:引入业务流程概念取代工作流概念,让用户从业务视角科学管理开发任务。
image009

◆解决方案:有机组织同类型业务流程,赋予用户从更高视角横向管理开发任务的能力,全新定义开发流程。
◆依赖升级:实现独立配置同一业务流程内依赖任务的独立周期配置,解决更多复杂依赖场景。
◆SQL组件:提供自定义SQL代码过程模板的功能,让用户无需进行重复开发即可高效复用相似SQL代码,有效减少用户重复研发成本。
◆回收站:提供删除后还原功能为用户解决误删任务后无法恢复的后顾之忧。
◆SQL电子表格:页面执行SQL产出结果接入电子表格功能,方便用户对数据结果进行筛选、排序等操作,并提供搜索和下载结果等功能。
image011

◆运行历史:保留近三天内页面执行SQL结果,便于研发人员在无需重复执行代码的情况下,反复对比SQL测试结果。
◆代码全局搜索:实现了通过关键字形式对代码进行全局搜索的功能,让用户快速定位到所需操作的节点任务。
◆表分层管理:用户可对项目下所有表进行文件夹命名归类,同时可通过图形化界面进行表物理模型设计与结构设计,实现了更科学的表管理方式。
(4) 更智能的业务监控
通过人工定义某层曾节点的产出时间即可打通后端监控系统对上游所有节点任务的全链路智能监控,从而实现“是否报警”、“何时报警”、“如何报警“以及“给谁报警”的功能,彻底为用户降低监控配置成本并杜绝无效报警。
(5) 更完备的数据研发闭环体验
◆数据质量(DQC):支持MaxCompute数据表与DataHub实时数据流的质量校验、通知、管理功能,实现当数据发生变化时对数据进行校验, 并在满足质控规则条件时将报警推送给相关责任人,进而推动研发人员达成不断改进数据质量的正向循环。
image013

◆数据保护伞:提供数据资产识别、敏感数据发现、数据分级分类、脱敏、访问监控、风险发现预警与审计能力,让用户无需显著投入即可落实科学数据安全管理规范。
image015

◆数据服务:通过Serverless助力用户几乎通过零成本即可快速将数据表构建为数据API,并提供成熟的API鉴权、发布、管理、生命周期管理功能,让用户不费吹灰之力即可快速将API集成至自有APP或发布至云市场进行数据能力售卖,搭建企业统一数据服务总线
(6) 完美结合人工智能
DataWorks完美集成了阿里云机器学习(PAI)平台,为用户提供数据处理、建模、离线预测、在线预测为一体的机器学习处理能力。同时封装了阿里巴巴集团内成熟的算法,向机器学习用户提供了更简易的操作体验,真正做到让人工智能触手可及。

DataWorks获奖经历

2017年,DataWorks获得国际软博会金奖;2018年,DataWorks + MaxCompute获得著名分析评测机构Forrester的Cloud Data Warehouse云数据仓库世界排名第二的成绩,是唯一入选的中国产品。
DataWorks始终致力于Make Data Work,欢迎广大开发者一起在DataWorks V2.0上畅游大数据的世界!

了解更多大数据家族产品详情,欢迎点击:
https://et.aliyun.com/bigdatarelease
点击观看大数据家族产品发布会:
https://yq.aliyun.com/webinar/play/508
【阿里云新品发布】开启新一代数据智能开发之路:
https://yq.aliyun.com/roundtable/325525

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks常见问题之dataworks100g大小的csv文件上传到odps失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks常见问题之maxcompute资源打开失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
分布式计算 DataWorks 算法
DataWorks常见问题之更改odps表生命周期失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
分布式计算 DataWorks 数据处理
DataWorks如何更改odps表生命周期为永久?
【2月更文挑战第14天】DataWorks如何更改odps表生命周期为永久?
96 2
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks支持将ODPS表拆分并回流到MySQL的多个库和表中
【2月更文挑战第14天】DataWorks支持将ODPS表拆分并回流到MySQL的多个库和表中
58 8
|
3月前
|
存储 数据采集 大数据
大数据处理与分析技术:驱动智能决策的引擎
本文介绍了大数据处理与分析技术在现代社会中的重要性和应用。从数据采集、存储、处理到分析决策,大数据技术为我们提供了深入洞察和智能决策的能力,推动着各行各业的创新和发展。
52 0
|
3月前
|
分布式计算 DataWorks MaxCompute
DataWorks中odps到容器部署starrocks的单表同步遇到写入问题
【1月更文挑战第6天】【1月更文挑战第29篇】DataWorks中odps到容器部署starrocks的单表同步遇到写入问题
46 3
|
3月前
|
分布式计算 DataWorks API
dataworks100g大小的csv文件怎么上传到odps?
【1月更文挑战第20天】【1月更文挑战第96篇】dataworks100g大小的csv文件怎么上传到odps?
53 1
|
1月前
|
SQL 分布式计算 DataWorks
在DataWorks中,将MaxCompute的表映射成Hologres(Holo)外部表的语句
【2月更文挑战第32天】在DataWorks中,将MaxCompute的表映射成Hologres(Holo)外部表的语句
23 1
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。

热门文章

最新文章