新型数据准备工具来袭 你还在使用传统数据仓库架构吗?

简介:

越来越多的业务分析师正在提升自身编写临时查询和分析算法的能力。这些临时查询和分析算法用来寻找企业数据存储中的有用信息,为企业做业务决策时提供更多数据。随着企业员工越来越精通于使用分析工具,他们当中越来越多的人发现,传统的数据仓库架构阻碍了他们分析某些重要数据的能力。

新兴的自助型数据准备工具可以帮助业务分析师、数据科学家和其他最终用户绕过数据仓库,完成数据集成和制备过程的关键部分。而我们说数据仓库对此造成了阻碍的主要原因有以下三点。

首先,传统的数据仓库通常是一个存储库,其数据来自内部事务处理,或者用于生成业务性能报告的运营系统。这限制了在数据上所进行分析的范围和类型。

其次,传统的数据仓库用于提取的数据集合是高度集成和标准化的,它使用了一整套的业务规则,结合了一个预定义的易于维度分割的数据模型。这样做可能会过滤掉与特定分析应用程序相关的某些信息。

第三,IT团队通常负责开发规则和流程,以确保数据以正确的方式存储到数据仓库中,这种方法同样可能无法满足分析人士的最终分析需求。

显然,传统的数据仓库的规范流程在过去很适合于企业,但数据的应用场景正在迅速改变。企业越来越需要将他们的交易数据与来自各种其他信息来源的数据混合,这些数据源包括网站点击,活动日志,生产设备的传感器和其他设备,客户电子邮件、社交网络和客户流媒体数据、数据聚合器和第三方信息服务提供商等。

新的数据类型需要新的数据平台

利用这些外部数据源可以帮助提高商业洞察力,配以业务流程的变化,将使得企业真正转变为数据驱动型。但在许多情况下,比起数据仓库,这些新增的数据更适合在一个大型的数据平台上被存储和处理——Hadoop集群,NoSQL数据库,或Spark系统,或者从外部门户网站获取这些数据。

此外,业务分析师以及数据科学家经常对可用数据进行不同形式的访问,甚至包括数据的原始状态。

例如,消费产品制造商的营销团队可能需要分析客户的档案记录,新闻源和社交媒体数据,以找出一种模式,帮助策划一个在线营销活动。同时,客户体验团队可能需要监控社交媒体,获取各种网站上的产品评论,识别潜在的问题,以便采取相应的行动来安抚顾客的不满情绪。其他团队也可以有自己的用处。因为每个人都有不同的需求和目标,数据仓库几乎不可能让所有的分析目标都得到满足。

让分析师处理那些最能满足他们独特需要的数据,可以让分析工作更加更富有成效。这对数据集成的各个方面都有影响,包括数据发现,数据摄取、分析、验证和质量保证等。各大供应商所提供的新型自助型数据准备工具是个不错的选择。

数据准备阶段的逻辑分离

此技术对分析用户、IT和数据管理团队进行了明确合理的分工。业务分析师和数据科学家可以使用数据准备工具来找到不同系统中的相关数据,将这些数据放在一起,进行配置和清洗以保持数据的一致性,定义业务规则管理对数据的使用。在数据准备软件的帮助下,他们能得到相关数据的更全面的定制化视图,这通常比他们从数据仓库获取到的东西要强得多。

理想情况下,分析师对数据的使用更加充分。这意味着他们应该保证自身理解高层数据使用策略,并贯彻实施。他们还需要与其他人合作以确保数据被合理的解释,并保证企业内部数据的一致性。

因为数据集被捕获后,保持着原来的格式,IT部门不需要负责实现被分析数据的集成和转换规则。相反,他们的责任转换为管理整个基础架构,以支持数据发现、整合和分析过程,并提供控制机制来监控数据定义的不一致现象以及使用业务数据时不遵守治理规则的行为。

大多数企业可能并不会抛弃数据仓库。自助型数据准备软件是一种相对较新的不断成熟的技术,主要由一些新兴供应商提供。但这些数据准备工具的蓬勃发展,为那些寻求获取更多数据的企业指明了方向,那就是要增加分析的灵活性和有效性。


本文作者:David Loshin

来源:51CTO

相关文章
|
29天前
|
存储 SQL 关系型数据库
ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计
ClickHouse的核心架构包括执行过程和数据存储两部分。执行过程涉及Parser与Interpreter解析SQL,通过Column、DataType、Block、Functions和Storage模块处理数据。Column是内存中列的表示,Field处理单个值,DataType负责序列化和反序列化,Block是内存中表的子集,Block Streams处理数据流。Storage代表表,使用不同的引擎如StorageMergeTree。数据存储基于分片和副本,1个分片由多个副本组成,每个节点只能拥有1个分片。
70 0
ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计
|
2月前
|
缓存 安全 API
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现
公司对外开放的OpenAPI-Server服务,作为核心内部系统与外部系统之间的重要通讯枢纽,每天处理数百万次的API调用、亿级别的消息推送以及TB/PB级别的数据同步。经过多年流量的持续增长,该服务体系依然稳固可靠,展现出强大的负载能力。
55 9
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现
|
4月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
159 0
|
1月前
|
SQL 数据采集 存储
数据仓库(12)数据治理之数仓数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
230 0
|
1月前
|
存储 分布式计算 Hadoop
一文了解Apache Hudi架构、工具和最佳实践
一文了解Apache Hudi架构、工具和最佳实践
73 0
|
1月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
64 0
|
1月前
|
存储 大数据 数据管理
数据仓库(09)数仓缓慢变化维度数据的处理
数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。
210 2
数据仓库(09)数仓缓慢变化维度数据的处理
|
1月前
|
SQL 缓存 分布式计算
日增数据超10PB!揭秘沃尔玛Lakehouse架构选型之路
日增数据超10PB!揭秘沃尔玛Lakehouse架构选型之路
44 2
|
1月前
|
存储 SQL 机器学习/深度学习
通用数据湖仓一体架构正当时
通用数据湖仓一体架构正当时
59 2
|
2月前
|
存储 消息中间件 Java
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的高可靠消息服务设计实现
在深入研究了 **“【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的API网关设计实现”** 设计实现后,我们意识到,尽管API网关为服务商提供了高效的数据获取手段,但实时数据的获取仍然是一个亟待解决的问题。
31 1
【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的高可靠消息服务设计实现