如何使用DataWorks--HoloStudio联合查询实时(Blink)、离线(MaxCompute)数据。

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
大数据开发治理平台 DataWorks,不限时长
简介: 交互式分析与大数据生态无缝打通,不仅能实时查询离线数据以及实时数据,还能对离线数据、实时数据做联合查询,用一套SQL语言,在一套系统里面就能根据业务需求完成开发,无数据的冗余存储业务导入导出操作,在降低成本和运维的同时,也为开发降低难度。

离线大数据场景主要基于MaxCompute进行批量数据分析,实时数据场景主要是依靠实时计算做初步的数据清洗再对接数据库来完成数据的实时分析需求。但随着业务精细化运营的加深以及大促的常态化,单一的数据场景并不能满足业务的需求,而实时离线联合使用的场景诉求变得越来越多。例如双11大促当天快结束时,某手机店铺需要冲击一下销量,运营通过对实时数据分析发现当前店铺的加购率高但是转化不行,为了提高转化率,想针对部分人群发放一些优惠券或者红包来促进转化,但加购的实时人群数量庞大,如何选取最精准的人群成为一大难题。这时,运营调用历史购买数据即离线数据,通过对实时数据和离线数据在某个条件下的聚合查询对用户进行分层,最后筛选出最精准的人群来进行优惠券发放。
交互式分析与大数据生态无缝打通,在离线数据场景上,与MaxCompute在底层打通,支持直接查询/导入查询MaxCompute数据;在实时数据场景上,提供connect接口,支持实时计算(Blink)数据实时查询实时写入,只需要维护一套系统,就能实现实时离线的交互式查询。今天小编就为大家介绍,如何使用交互式分析来同时完成实时离线联合查询。

本次案例基于交互式分析的开发平台HoloStudio完成,关于HoloStudio的使用可以请参见往期传送门:
HoloStudio介绍:《交互式分析六脉神剑》之Dataworks-HoloStudio初体验

HoloStudio直接查询MaxCompute:在吗?0代码加速查询MaxCompute请查收!

HoloStudio查询实时计算:学会这个,实时数据(Blink)实时查询实时写入!

开发平台

实时计算平台
DataWorks--HoloStudio

前提条件

1.开通实时计算服务
2.开通MaxCompute服务
3.开通交互式分析服务
4.确保以上3个服务在同一个region。

操作步骤

1.准备MaxCompute离线数据

登录DataWorks,新建业务流程--数据开发--ODPS SQL,输入MaxCompute作业信息
image.png
在MaxCompute中准备一张用户的离线数据表,主要用来存放以前用户的购买记录,本案例的示例数据如下:
image.png

2.准备实时数据

登录实时计算平台,新建作业,写入实时作业,对数据做初步的清洗,并引用资源包完成交互式分析与实时计算的连接。
image.png
作业检无误后提交,在生产环境启动该作业,最终作业输出如下:(数据最终存储在交互式分析里)
image.png

3.交互式分析联合查询数据

登录HoloStudio,在SQL Console里面执行临时查询,查询经过实时计算初步清洗的部分实时数据如下:(
image.png
HoloStudio新建外部表,查询的MaxCompute部分离线数据如下:(数据仍然存储在MaxCompute中)
image.png
现将实时数据与离线数据按照某个条件做聚合,例如查询过去1-2年购买过且当前加购金额超过8000元的用户。

SELECT a_id, sum(a_cost) as total from
    (select user_id as a_id, cost as a_cost from holo_demo where salltime >='20171101' and salltime <= '20181101') hdm
     join (SELECT user_id as b_id, cost as b_cost FROM blink_demo where cost >'8000' ) bdm on hdm.a_id = bdm.b_id
group by a_id;

join后的部分结果示例如下:
image.png
即可通过join后的id筛选出精准人群,来进行优惠券/红包投放。

本案例只是做简单的示例,具体的场景请根据业务需求进行数据聚合。

交互式分析与大数据生态无缝打通,不仅能实时查询离线数据以及实时数据,还能对离线数据、实时数据做联合查询,用一套SQL语言,在一套系统里面就能根据业务需求完成开发,无数据的冗余存储业务导入导出操作,在降低成本和运维的同时,也为开发降低难度。既然交互式分析功能这么强大,赶紧用起来把
如果大家在使用过程中有任何疑问,欢迎进钉钉群询问。
image.png

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标 &nbsp;通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群 &nbsp;企业数据仓库开发人员 &nbsp;大数据平台开发人员 &nbsp;数据分析师 &nbsp;大数据运维人员 &nbsp;对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks常见问题之dataworks100g大小的csv文件上传到odps失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL DataWorks 关系型数据库
DataWorks报错问题之写入数据时报‘http.client.ResponseNotReady’如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
消息中间件 分布式计算 DataWorks
DataWorks常见问题之查看数据地图模块总的存储大小失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
分布式计算 DataWorks 调度
DataWorks报错问题之dataworks同步clickhouse数据报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks提供的数据同步类型不仅包括整库离线同步
【2月更文挑战第31天】DataWorks提供的数据同步类型不仅包括整库离线同步
21 8
|
8天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
11 3
|
11天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
1月前
|
SQL 分布式计算 DataWorks
在DataWorks中,将MaxCompute的表映射成Hologres(Holo)外部表的语句
【2月更文挑战第32天】在DataWorks中,将MaxCompute的表映射成Hologres(Holo)外部表的语句
23 1
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks不仅提供单表离线模式,还支持多种数据同步任务类型。
【2月更文挑战第31天】DataWorks不仅提供单表离线模式,还支持多种数据同步任务类型。这些类型包括整库离线同步(一次性全量同步、周期性全量同步、离线全增量同步、一次性增量同步、周期性增量同步)以及一键实时同步(一次性全量同步,实时增量同步)。此外,DataWorks还提供了数据类型转换的功能,您可以选择在源端和目标端使用相同的数据类型以避免数据类型转换,或者在源端和目标端使用不同的数据类型,然后在同步时手动转换数据类型。
24 6
|
1月前
|
DataWorks 监控 数据可视化