Gartner解读“数据湖”的误区与风险

简介:

Gartner认为,最近围绕着“数据湖”(Data Lake)这个概念的炒作不断升温,正在导致信息管理领域的重大混乱。很多厂商都生成数据湖是抓住大数据机遇的一个重要组成部分,但是厂商们却对是什么构成了数据湖、或者如何从中获得价值没有达成一致。

Gartner研究总监Nick Heudecker表示:“从广义上讲,数据湖被市场营销为一个用于分析各种来源、原始格式的数据的企业数据管理平台。其想法很简单:你将数据以原始格式迁移到数据湖中,而不是放置在专用的数据存储中。这就避免了接收数据的前端成本。一旦数据被放进数据湖中,企业中的所有人都可以使用这些数据进行分析。”

但是,尽管市场炒作表明,整个企业中每个人都将充分利用数据湖,但是这个定位是假设所有这些人都是在数据处理和分析方面具有高超的节能,因为数据湖缺乏语义一致性和对元数据的治理。

Gartner副总裁及著名分析师Andrew White表示:“对于提高数据分析灵活性和可访问性的需求,是数据湖的主要推动力。数据湖可以为企业机构的不同组织提供价值,这一点是千真万确的,但是企业数据管理的定位还没有最终实现。”

数据湖的重点是保存不同的数据,却忽略了如何使用数据以及为什么要使用数据、监管数据、定义数据和确保数据安全。数据湖概念希望解决一老一新两个问题。老问题是,信息孤岛。你可以将不同来源都集中到一个未经管理的数据湖中,而不是保持数十种独立管理的数据集合。从理论上讲,整合的结果是加强信息利用和共享,同时降低服务器和许可成本。

而新问题,则是涉及到大数据举措。大数据项目要求大量各种信息。这些信息如此不同,以至于我们不知道这些信息究竟是什么,以及什么时候收到的,就把它归类到某种类似数据仓库的结构化数据,或者关系型数据库管理系统以便未来使用。

“用数据湖来解决这两个问题无疑在短期内是有利于IT的,因为IT不再需要花费时间去了解如何使用信息——数据只是被倾倒如湖中。不过,从这些数据中获得价值,仍然是企业最终用户的责任。当然,可以运用或者添加相关技术来做到这一点,但是如果没有至少某种信息治理的集合,那么这个数据湖最终将成为多个缺乏相互连接的数据池或者集中在一个地方的多个信息孤岛的集合体。”

因此,数据湖存在着重大风险。最重要的一点,是无法决定数据质量或者利用其他已经发现价值的分析师或者用户在使用湖中相同数据中的经验发现。从定义上看,数据湖可以接收任何数据,不受监督或管理。没有描述性的元数据,和维护它的机制,数据湖会转变成数据沼泽。如果没有元数据,所有对数据的后续使用都意味着从零开始对数据进行分析。

另外一个风险是安全性和访问控制。数据可以在不受内容监管的情况下被放到数据湖中。很多数据湖中数据的使用意味着其隐私和法规要求很可能使其暴露于风险之下。数据湖核心技术的安全能力仍然处于早期萌芽阶段。如果交给非IT人员的话,这些问题将不会得到解决。

最后,性能方面的因素也不容忽视。数据湖相关的工具和数据接口的性能无法与专用存储系统相匹敌,可以针对优化的专用的基础设施。因此,Gartner建议企业机构专注于上游应用和数据存储库的语义一致性和性能,而不是数据湖中的信息整合。

Heudecker表示:“数据湖通常始于不受监管的数据存储库。满足更广泛受众的需求,这要求具有监管、语义一致性和访问控制的存储库,数据仓库中已经具备这些因素。”

“数据湖的根本问题是,它对信息的用户做了特定的假设。它假设用户了解数据获取的背景,知道如何合并数据和如何协调不同数据来源,在不具备‘先验知识’也就是了解数据集的不完整性,不管结构如何。”

虽然这些假设对于数据科学家这样使用数据的用户来说的确是真实的,但是大多数企业用户缺乏这么高的水准或者缺乏来自运营信息监管方面的支持。开发或者购买这些技能,或者从个人角度获取这种支持,要么是既耗费时间和金钱,要么就是完全不可能的。

“从数据中总是会发现价值的,但你的企业不得不解决的问题是——我们允许甚至是鼓励对各种孤岛或者数据湖中的信息进行一次性、独立的分析吗,或者我们会正式承认这方面的努力,试图维持我们开发的创造价值的技巧吗?如果你的选择是前者,那么很可能数据湖就是具有吸引力的。如果你的决定趋向于后者,那么超越数据湖理念,制定一种更强大的逻辑数据仓库战略就是更有意义的。”

原文发布时间为:2014年07月29日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
目录
相关文章
|
10月前
|
存储 人工智能 数据挖掘
带你读《升舱 - 数据仓库升级交付标准白皮书》——1、行业趋势与困惑
带你读《升舱 - 数据仓库升级交付标准白皮书》——1、行业趋势与困惑
152 0
|
10月前
|
安全 大数据
带你读《升舱 - 数据仓库升级交付标准白皮书》——4.1 行业变化与系统痛点
带你读《升舱 - 数据仓库升级交付标准白皮书》——4.1 行业变化与系统痛点
119 0
|
11月前
|
存储 SQL 机器学习/深度学习
「数据战略」数据驱动企业和DataOps :数据仓库与数据湖:入门
「数据战略」数据驱动企业和DataOps :数据仓库与数据湖:入门
|
存储 机器学习/深度学习 分布式计算
谈谈企业如何实施数据湖(上)
目前,很多大型集团企业都在热烈讨论建立数据湖的最佳方式。
谈谈企业如何实施数据湖(上)
|
存储 SQL 分布式计算
谈谈企业如何实施数据湖(下)
目前,很多大型集团企业都在热烈讨论建立数据湖的最佳方式。
谈谈企业如何实施数据湖(下)
|
存储 SQL 弹性计算
金融科技数据湖构建和管理之道
上海数禾信息科技有限公司是一家拥有小贷牌照和融资担保牌照的金融科技公司(下称“数禾科技”),公司的核心产品是“还呗”。本文要分享的主题是数禾科技如何在云上构建和管理数据湖。
3240 0
金融科技数据湖构建和管理之道
|
数据处理 分布式计算 Hadoop
独家 | 关于数据湖架构、战略和分析的8大错误认知(附链接)
本文打破有关数据湖的8个错误认知,错误认知包括3方面,还提出了5个小技巧,以构建一个灵活的、可交付业务价值的数据湖。
3265 0
|
安全 大数据 中间件