数据湖前途未卜?

简介:

大数据对于商务人士来说是让人兴奋的产物,许多的大数据杀手级应用将不断出现。对于存储管理员来说,存储基础设施将不断增长,这是毫无疑问的。你一直都在所有客户中收集终端用户每毫秒的行为数据,想象一下如果你可以立即查看所有数据,不需要考虑数据监管、数据管理、数据保护和其它所有相关的烦恼,你需要做的只是把你所有的数据放到一个相对廉价又具备扩展性的Hadoop存储中,这是多么令人期待的事!

大数据湖能够满足不断增长的数据需求,并为你的业务提供有价值的服务。通过将不同来源的数据集采集到一个集中平台,使用容易扩展的大数据方法提供多租户的分析服务,还会创造许多新的数据挖掘机遇。数据湖的总潜力值随着可用于分析的数据量增加。一个大数据和大数据湖的关键原则是你不需要提前建立主数据模型,非线性增长是不会出现的。

企业数据湖或hub的概念最初是由Cloudera和Hortonworks这样的大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但你的数据量越大,你越可能需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

所以,今天传统的存储厂商正在分析大数据湖的前景。从存储市场的角度来看,数据湖就像另一个云计算一样。“所有人都需要一个数据湖,你怎么能够没有一个(甚至两个、三个)?”但企业使用存储有多种选择,可以采用支持HDFS和Hadoop虚拟化的企业级存储,这种存储可以将其它存储协议转换成HDFS。也可以采用可扩展的软件定义存储。

大量,快速,现在

数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。Hadoop和它的生态系统已经度过了它们的理论研究阶段,它们已经可以为实际的应用需求服务了。数据管理和数据分析的应用程序已经开发得非常友好,高级的向外扩展机器学习技术也已经投入应用并嵌入至只需要用鼠标就能简单操作的大数据挖掘软件中。然而,IT仍然需要对数据湖里的所有数据负责,所以在这里我们列举了几个企业数据湖的几个关键特点:

保存一份集中的数据索引(或元数据),包括数据源、版本、精细度和准确度。如果在这方面没有自动化的支持,一个数据湖会很快被冲垮。

对数据进行安全的授权、审计和访问控制。Hadoop生态系统在数据安全性方面正在快速发展,因为这是企业的强制性需求。有许多新产品为大数据资产提供一定的安全性,也有许多产品致力于保护数据湖中的大量新数据、用户和不断增长的资产价值。

对数据湖中的数据启用监管功能,并强制启用保留(retention)和处置(disposition)策略(以及追踪个人可识别信息)。最优秀的产品(如Dataguise)会强制使用监管和合规需求,无论数据湖中有多少数据或是什么类型的数据集。

为操作可用性和BC/DR需求确保一定规模的数据保护。远程复制是必要的吗?已经成为了一个关键业务运营平台的数据湖里的大量实时数据流对远程复制来说就是洪水猛兽。

使用多种大数据分析方法(不仅仅只是Hadoop)和工作流利用数据湖提供敏捷分析。在某种程度上,Hadoop和HDFS实际上是软件定义存储产品,它们具有数据感知功能,可以提供内置的大数据分析服务。但也有其它产品也能提供很好的数据湖解决方案,如Spark和一些专有的OLAP或在线分析处理大数据分析平台(如HP Haven等)。

我们在今天的企业级存储产品可以找到上面提到的这些功能,它们说明了为什么许多厂商热衷于数据湖领域,因为云和大数据会带来很大的经济效益。注重质量的企业级软件定义存储会成为这一领域的领导者。

前景还不清晰的数据湖

数据湖真的是一个好的方案吗?一个我们最开始可能会问的问题就是我们是否真的需要把所有的数据都汇聚到一起?在一个地方建立整个企业的数据聚集点会带来巨大的风险。另一个的问题是数据湖真的是一个节约成本的解决方案吗?特别是像Google、Facebook这种具有海量数据的公司。

数据湖的方案最好是慢慢来实现,而不是大规模的重新设计整个数据中心。数据湖的价值取决于我们的数据,大规模的部署向外扩展的共享架构将使许多组织从数据湖(至少是数据池)中汲取养分。

本文作者:佚名
来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据采集 运维 数据可视化
招商银行数据分析平台的前生今世
招商银行数据分析平台的前生今世
430 0
|
存储 传感器 SQL
谈谈数据资产理念下构数据湖的喜与忧
最近,数据湖成为大家关注的数据资产存储新架构,那么数据在现实中都有哪些应用场景呢,下面举几个典型的应用案例。
谈谈数据资产理念下构数据湖的喜与忧
|
存储 SQL 分布式计算
一幅长文细学华为MRS大数据开发(一)—— 大数据时代的挑战和机遇
本文主要讲述了大数据的定义,以及华为鲲鹏对于日益见长的大数据的解决方案
530 0
|
SQL 机器学习/深度学习 人工智能
门外汉掌握数据分析处理技术的路线图
数据分析的学习思路与技术分享
164 0
门外汉掌握数据分析处理技术的路线图
|
SQL 供应链 Oracle
数据仓库 | 从买菜这件小事来聊聊数据仓库
数据仓库 | 从买菜这件小事来聊聊数据仓库
|
存储 机器学习/深度学习 SQL
畅想数据湖
畅想数据湖
170 0
|
存储 SQL 弹性计算
金融科技数据湖构建和管理之道
上海数禾信息科技有限公司是一家拥有小贷牌照和融资担保牌照的金融科技公司(下称“数禾科技”),公司的核心产品是“还呗”。本文要分享的主题是数禾科技如何在云上构建和管理数据湖。
3248 0
金融科技数据湖构建和管理之道
|
存储 达摩院 Cloud Native
这次我们憋了一个大招!助力每个企业拥有属于自己的云原生数据仓库!
云原生开启新篇章,未来数据库将迈入云原生时代。
1212 0
这次我们憋了一个大招!助力每个企业拥有属于自己的云原生数据仓库!
来,一起“八卦”一下数据湖
经过了几年的发展,在大数据时代红极一时的数据湖也在理想与现实之间慢慢发生着蜕变。现在,数据湖已经成为海量数据存储与分析的重要承载方式。
973 0
来,一起“八卦”一下数据湖
|
存储
数据湖的终极奥秘,无招胜有招 |《阿里云数据湖存储解决方案蓝皮书》江湖亮相
作为海量数据存储与分析的重要承载方式的数据湖,从2011年概念诞生至今,已经发展了9个年头。而数据湖是什么?又能为数字化经济带来什么?《阿里云数据湖存储解决方案蓝皮书》将为您揭开数据湖的"江湖"——无招胜有招‘
1535 0
数据湖的终极奥秘,无招胜有招 |《阿里云数据湖存储解决方案蓝皮书》江湖亮相