基于交互式分析搭建的典型应用场景

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 交互式分析经过在阿里巴巴集团近3年的沉淀,已覆盖上百个业务团队,今天小编将会从技术的角度为大家解读交互式分析的架构亮点,以及基于交互式分析架构搭建的典型应用场景介绍。

交互式分析经过在阿里巴巴集团近3年的沉淀,已覆盖上百个业务团队,今天小编将会从技术的角度为大家解读交互式分析的架构亮点,以及基于交互式分析架构搭建的典型应用场景介绍。

架构介绍

系统架构

底层存储在盘古系统中,存储计算分离,并与MaxCompute在底层无缝打通,可直接对MaxCompute数据加速查询。
兼容PostgreSQL,提供JDBC、ODBC接口可直接对接各种开发工具、BI分析工具。
规模水平扩展,支持复杂查询,多维分析,复杂关联分析。
image

存储计算分离

常用的存储计算有共享存储方案和非共享存储方案,而交互式分析采用的是存储计算分离方案。
1.共享存储方案:该方案是所有数据都存在公共存储里,当多台机器需要写同一条数据时,为了保证数据的一致性,需要分步式的检索机制,带来一定的开销。同时也需要维护各个机器之间的一致性,增加运维成本。
2.非共享存储方案:该方案是每台机器都有自己的本地存储,数据会分片存储在机器的本地存储,机器通过网络去协同完成用户的查询,优势在于扩展性好,能做到水平扩展,缺点是当需要扩容或者缩容时,因为数据存储在机器的本地盘里,需要将数据迁移到新的机器,整个数据迁移过程非常漫长,时效性差。
3.存储计算分离方案:该方案是共享存储集群,存储所有数据,所有计算会有单独的计算集群,计算存储通过网络进行交互,类似共享存储方案。但是数据在整个过程是分片的,每个计算会由一个单独节点去写,类似非共享存储方案。存储计算分离结合以上两种方案,在保证快缩容的同时,又能实现无限的水平扩展。随着带宽的增长,网络的延迟变得越来越低,这也就降低了远程存储所带来的额外开销。同时利用云端资源,当需要更多存储时,可申请存储资源扩容到存储集群,需要更多计算时,可申请计算资源扩容到计算集群,在水平扩展的同时保证资源的弹性,为业务提供保障。
image

流批统一的数仓

针对Lambda架构,对离线数据的处理是将其写进离线系统中,优点是高吞吐、效率高,但该系统的缺点是在处理实时数据时,实时性差,通常需要将实时数据存在实时系统中(如Hbase)。这就使得开发人员同时维护两套系统,并要保证两套系统的一致性,开发成本大。
Flink虽然提供一套代码来维护两套系统,开发难度缩小,但是从存储方面来说,也需要两套存储,一个存储离线数据和一个存储实时数据,同时也经常需要对数据导入导出,操作依然复杂。
而交互式分析作为流批统一的实时数仓,能够同时存储实时、离线的数据,在降低开发成本和运维成本的同时,也保证了数据的一致性和秒级交互式响应。
image

典型业务场景

实时A/B Testing场景

例如某个产品上线时,通常会进行实时A/B test,常用的流程是:算法工程师在产品的关键指标处埋点,实时采集用户数据(点击、浏览、收藏等),从而产生用户的行为日志,并存储在消息队列(例如DataHub)中,再经过实时计算,将用户信息与行为数据、产品信息进行关联,并做信息的聚合,形成不同的模型,通过对模型的不断测试和调优,最终得到最优模型。
整个过程中的最大挑战在于要计算的指标非常多,如果每个指标都用实时计算来做统计,会浪费大量的资源。
针对这个挑战,引入交互式分析引擎,先用实时计算对指标进行初步对聚合,算法工程师可以根据不同模型的要求将数据进行清洗再写入进交互式分析,免除不必要资源的浪费现象。算法工程师也会通过交互式分析直接对接第三方分析工具(例如实时报表、实时大屏等)进行模型分析,为进一步理解每个模型的表现情况,需要不断用交互式分析来进行数据的交互,在此过程中,交互式分析可达到高并发的秒级交互式响应,为下一步的模型快速调优提供强有力的支持。
image

离线加速场景

MaxCompute是大规模的离线数仓,在离线数据处理上可提供PB级的计算服务。
传统的离线数据处理过程是:将离线数据存在MaxCompute,再导入到OLAP中,使用OLAP对接BI工具进行数据服务。整个过程中需要数据的导入导出,增加额外成本的同时也不能保证数据获取的时效性,无法满足海量数据快速分析的即席要求。
而交互式分析在底层与MaxCompute资源打通,无需数据额外导入导出,就能分析MaxCompute中的数据,大大降低存储成本和运维成本。同时交互式分析兼容PostgreSQL生态,能对接PostgreSQL的BI分析工具也能直接对接交互式分析,实现离线数据的快速可视化分析。
image

精细化运营

例如双11大促时,常用的数据链路是:用户数据实时采集进DataHub,实时计算数据清洗写入到交互式分析,并对接BI工具来实时可视化分析现有数据的表现,从而根据实时情况来做下一步的运营策略。为进一步提升指标,需要对部分用户进行精细化运营(例如对已加购但未付款的用户发放一定的优惠券),此时若只采集实时数据,人群数量庞大,需要借助离线数据(例如过去半年购买情况)将人群变得更加精准化,使用交互式分析直接实时加速查询离线数据,并设定人群圈定规则,将实时数据与离线数据取交集,来得到最终的精细化人群。
image

关于交互式分析的更多信息,可前往交互式分析官网进行查看:https://www.aliyun.com/product/hologram
也欢迎大家扫码加入我们的钉钉群进行交流:
image

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
5月前
|
搜索推荐 JavaScript 前端开发
77 网站点击流数据分析案例(原理及意义)
77 网站点击流数据分析案例(原理及意义)
93 0
|
4月前
|
SQL 运维 数据可视化
可视化构建实时数仓保姆级教程
业务上需要实时数据分析,离线任务改造成本高?数据发生变更,难以像批处理任务那样修正?AnalyticDB for PostgreSQL 提供了真正的 Stream warehouse 解决方案,具备实时ETL、行列混合存储和高性能分析引擎,实时构建数仓。为了进一步提升上手易用性,AlnayticDB for PostgreSQL 发布了企业数据智能平台,提供可视化实时任务开发 + 实时数据洞察,让您轻松平移离线任务,使用SQL和简单配置即可完成整个实时数仓的搭建。并支持实时数据洞察,可对实时数仓任意表进行Ad-hoc查询、数据探索及图表分析,让您实时数据debug和快速进行业务洞察。
1134 0
|
4月前
|
SQL 数据可视化 关系型数据库
保姆级教程|如何可视化构建实时数仓
业务上需要实时数据分析,离线任务改造成本高?数据发生变更,难以像批处理任务那样修正?AnalyticDB for PostgreSQL 提供了真正的 Stream warehouse 解决方案,具备实时ETL、行列混合存储和高性能分析引擎,实时构建数仓。为了进一步提升上手易用性,AnalyticDB for PostgreSQL 发布了企业数据智能平台,提供可视化实时任务开发 + 实时数据洞察,让您轻松平移离线任务,使用SQL和简单配置即可完成整个实时数仓的搭建。并支持实时数据洞察,可对实时数仓任意表进行Ad-hoc查询、数据探索及图表分析,让您实时数据debug和快速进行业务洞察。
1242 2
|
5月前
|
数据采集 SQL 数据可视化
79 网站点击流数据分析案例(整体技术流程及架构)
79 网站点击流数据分析案例(整体技术流程及架构)
54 0
|
6月前
|
消息中间件 数据挖掘 Kafka
实时数据分析演示
实时数据分析演示
|
8月前
|
存储 NoSQL 数据库
如何使用图形数据库构建实时推荐引擎
“您可能还喜欢”是一个简单的短语,暗示了企业与客户互动和联系方式的新时代,图形数据库可以轻松帮助构建推荐引擎。
56 0
|
SQL 运维 Kubernetes
环境管理的应用场景 | 学习笔记
快速学习环境管理的应用场景
186 0
环境管理的应用场景 | 学习笔记
|
存储 关系型数据库 MySQL
引擎的原理以及应用场景分析|学习笔记
快速学习引擎的原理以及应用场景分析
67 0
|
数据挖掘
一文速览-数据分析基础以及常规流程
一文速览-数据分析基础以及常规流程
95 0
一文速览-数据分析基础以及常规流程
|
监控 数据可视化 搜索推荐
对数据可视化工具应当具备的核心能力和价值的几点思考
可能大家都听说过这样一句话"字不如表、表不如图",其实背后所表达出来的意思是对于复杂难懂且体量庞大的数据而言,图表的信息量要大得多,这也是数据可视化的核心价值所在。
对数据可视化工具应当具备的核心能力和价值的几点思考

热门文章

最新文章