符合混合数据结构的数据湖

简介:

随着Hadoop的数据湖获得更多的定义和部署,现在开始看起来将与现有的数据仓库技术共存。而混合型数据架构这样一种观点出现在加利福尼亚州圣迭戈召开的2016企业数据世界会议上。

“这不是一个有或没有的事情,而是一个共同存在的事情。”纽约咨询公司CasertaConcepts公司总裁兼首席执行官乔治·卡塞塔在2016年EDW大会上表示,“企业的数据仓库不会消失。即使当我们正在关注Hadoop和Spark和其他所有闪亮的新事物,它仍然存在。”

但是数据湖在大数据科学和分析应用中找到了用武之地。乔治·卡塞塔表示,基于Hadoop的数据湖通常首先要处理大量和快速到达的大量非结构化数据。卡塞塔和其他专家表示,数据湖是大数据的趋势,将为数据专业人员熟悉实践的重要组成部分带来改变。

“我们采数据仓库创建了第一个数据模型,但这已经发生了变化,“卡塞塔说。随着数据湖的采用,这些模型都已落后。“我们不这样做,马上就落后了。”他说。

分析和应用

其中的一个原因是数据湖与实时数据流关联。随着分析使得业务应用更加紧密,并成为了实时决策的一部分,数据需要尽快地创建和访问。卡塞塔说,这也使得它与数据仓库的工作有很大的不同,这将继续成为必要业务报告的基础。

这个观点是由零售数据安全和电子商务服务提供商FirstData公司支付处理数据管理总监汤姆·普莱斯所分享的,他看到数据湖和数据仓库不同的应用,以及对数据结构的需要。

“数据仓库是专为缓慢变化的数据设计的,每天、每周和每月的汇总,以及已知的、结构化的数据”。普莱斯说,“而另一方面,数据湖是为快速变化的数据设计的,而数据湖可以告诉你一分钟前或五分钟前发生了什么事。”

像卡塞塔一样,普莱斯看到了从数据湖进入数据仓库的非结构化数据的选择性汇总的区别。

数据水库

作为数据湖泊的发展,作为处理简单和未分化的数据的应用可能会接近尾声。卡塞塔和普莱斯都看到在数据湖有着不同程度的数据治理应用于不同层次的数据。

这些部门主要是为用户提供先进和技能和分析。总部在亚特兰大的FirstData公司数据的消费者包括业务分析师和数据科学家,但也有一些产品创新和产品优化专家。其应用范围从商业报告到预防欺诈的案例。

普莱斯说,他其实更喜欢将长期的数据湖称为数据水库这样的术语。在他看来,数据水库可以传达摄入的数据将被处理的想法。

“数据湖本身只是一个用户不理解的原始数据的集合,它可能无法管理,无法验证用户。”普莱斯说,“有了数据水库,这些数据能够得到很好地治理,充分理解以及良好的管理。而且,你其实可以采用数据做更有价值的事情。”

长期沙箱

数据湖作为一个术语,远未受到普遍欢迎。总部在明尼阿波利斯一家保险和投资管理企业Thrivent金融公司的数据和商业智能交付高级架构师卢米尼察·沃尔默表示,并不喜欢这个术语。她倾向于共同发展的长期沙箱,因为很多数据湖的使用是实验性的。

不过,在数据仓库的前景会议上,她告诉与会者关注他们目前的数据仓库,以及他们的组织将如何使用未来的工具,包括NoSQL数据库和预测性分析软件的前景。她说,Hadoop已经在许多组织中占据了数据结构中的位置。

与其他人一样,沃尔默说,数据分析用户的一个新的频谱正在形成。当企业数据仓库是唯一的游戏时,事情是不同的,她说,这将影响到向前发展的数据管理团队的方式。

“必须要有一些人支持目前的系统和一些人做一些研究。”沃尔默说,“这可能使我们做事的方式发生变化。”

本文转自d1net(转载)

相关文章
|
4月前
|
存储 关系型数据库 数据库
Ganos全空间数据多态分层存储能力解析与最佳实践
本文介绍了Ganos与云原生关系型数据库PolarDB-PG联合打造的全空间数据多态分层存储能力与最佳实践。多态分层存储将OSS对象存储直接作为PolarDB-PG数据库的一种存储介质,可以与块存储联合使用,它支持用户将整库、单表、子分区表甚至是表内的一个LOB字段存储在OSS上,达到存储降本的目的,同时保持了增删改查的全部透明,并通过多级缓存保障了性能的最少衰减。多态分层存储是一种兼顾成本、性能与易用性的全空间数据管理方案,可极大程度降低业务开发的复杂度与云资源使用成本。
|
9月前
|
存储 运维 监控
转:算法与数据结构在监控软件中的优势与应用场景
算法和数据结构在监控软件中可以提高数据处理和查询的效率,实现准确的目标检测和跟踪,优化资源利用和提供实时的数据分析和决策支持。这些有助于提升监控软件的性能、准确性和实用性。
78 0
|
11月前
|
存储 数据管理 数据处理
「数据架构」数据模式/纲要,数据结构和数据模型有什么异同
「数据架构」数据模式/纲要,数据结构和数据模型有什么异同
|
存储 监控 负载均衡
海量非结构化数据存储中的小对象合并技术
随着人工智能, IoT 等技术的推广普及,智能监控,智能制造等新兴领域蓬勃发展,涌现出了越来越多的海量非结构化数据存储需求。
|
大数据 BI
一篇文章搞懂数据仓库:维度表(设计原则、设计方法)
一篇文章搞懂数据仓库:维度表(设计原则、设计方法)
一篇文章搞懂数据仓库:维度表(设计原则、设计方法)
|
存储 NoSQL 架构师
架构视角-文件的通用存储原理
架构师是互联网行业高薪又紧俏的资源。成为架构师最基本的是设计能力。设计与设计的区别主要体现在两方面: 1,深度:要解决哪些问题?这个问题背后的根本问题是什么?还有什么问题没有发现?对应的能力是发现和解决问题的能力。 2,体系:要解决的问题的属于哪一类的问题?这类问题能否进一步抽象,让系统解决更大的问题?对应的抽象归纳和体系化思维的能力。
架构视角-文件的通用存储原理
|
存储 监控 数据库
【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(二)
【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(二)
161 0
|
前端开发 数据库 数据库管理
【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(一)
【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(一)
295 0
|
存储 大数据 数据挖掘
三、在分布式中如何优化大数据存储结构
三、在分布式中如何优化大数据存储结构
275 0
三、在分布式中如何优化大数据存储结构
|
存储 SQL OLAP
列式存储 vs 行式存储:它们之间的本质区别在哪里?
> 论文链接:http://www.cs.umd.edu/~abadi/papers/abadi-sigmod08.pdf ## 概述 该文发表在 2008 年的 SIGMOD 会议上。从论文标题可以看出,论文主要内容不是陈述一种新的技术、架构,而是偏向议论、验证。其主要目的在于阐述清楚在 OLAP 下为什么列式存储Column-Store优于行式存储Row-Store。 在 OLAP 场景
1490 0
列式存储 vs 行式存储:它们之间的本质区别在哪里?