大数据治理不容忽视

简介:  本文介绍了IBM副总裁Ron Ben Natan博士对大数据治理的分析,着重阐释了大数据治理难题和IBM大数据治理的实践。 当畅销书《大数据时代》的作者维克托·迈尔-舍恩伯格在谈到大数据给信息时代带来的变革时,他认为相对于“小数据”来说,我们不再热衷于追求大数据的精准度。
0.jpg

 本文介绍了IBM副总裁Ron Ben Natan博士对大数据治理的分析,着重阐释了大数据治理难题和IBM大数据治理的实践。

当畅销书《大数据时代》的作者维克托·迈尔-舍恩伯格在谈到大数据给信息时代带来的变革时,他认为相对于“小数据”来说,我们不再热衷于追求大数据的精准度。或者我们可以将其理解为大数据定义中的第三个V,即Value(价值)。大数据的价值密度相对于传统交易数据会比较低,在大数据时代,我们不必去追求每一条数据都准确无误,数据的混杂以及相互作用让我们从之前的探寻因果关系转化为寻找事物之间的相关性。

那是不是意味着大数据时代,我们将不再需要进行数据治理(Data Governance)?答案是否定的!在2013 IBM技术峰会上,TechTarget中国记者采访了IBM杰出工程师、副总裁兼Guardium首席技术官Ron Ben Natan博士,他认为大数据治理比传统数据治理更困难,存在更多的挑战。而用户需要从数据开始生成的时候就开始考虑以大数据的方式来进行治理。

大数据带来治理难题

大数据的魅力在于为提升公司的竞争优势提供必要的洞察力:公司可以利用它发现客户及其他与业务息息相关的元素。对于走在大数据前沿的实践者来说,缺乏正确的数据治理流程会造成数据错误,从而导致分析结果的偏差以及无形成本的增加。

Ron Ben Natan博士认为,大数据治理的难度体现在:首先既要考虑传统数据的治理,又要兼顾新型数据存储方式的变化,比如NoSQL;其次大数据来自于多个数据源,这些数据源有内部的数据也有来自外部的数据;第三,大数据的数据结构更多,如JSON、Avro等,数据治理的复杂程度更高;最后,大数据的量非常大,海量数据给治理带来了更大的压力。

为了从大数据中获得有意义的业务信息,我们需要完成所有的相关工作,如数据的语义分析,然后再将它转变为概念模型或知识。因此整个过程就需要数据治理的参与。Ron Ben Natan博士把大数据治理比作“把所有的鸡蛋都放在一个篮子里”,如果这些大数据的数据质量不高,在商业决策上就会产生巨大的风险。Ron Ben Natan博士表示:“大数据的治理不只是说当你有了这些数据之后开始治理,而是从数据开始生成的时候就开始考虑要以大数据的方式来进行治理,需要整个生命周期的大数据治理。”

IBM的大数据治理最佳实践

在发布大数据战略之初,IBM就一直强调治理的重要性。Ron Ben Natan博士表示,IBM在大数据治理方面已经有了三年多的积累,并总结出一套大数据治理的最佳实践。这其中包括:

1、 让现有的数据转换成大数据可以使用的数据集,同时提供双向的转换。IBM提供了一系列工具,可以在现有企业的关系型数据和大数据需要的数据模型下进行自由的转换。

2、 大数据环境下进行数据屏蔽。当把所有的数据放在一起,数据中很多部分跟企业和个人相关的数据是具有敏感性的,在不同的人手里这些敏感的数据用做不同的用途,有一些是有害的,企业需要在这些数据流入流出的过程当中避免敏感数据的泄露。

3、 对大数据进行加密。我们需要保证不同节点中的数据不被他人非法利用。这里谈到数据的加密,可以提供透明的方式,保证只有特定的用户使用特定的应用程序,或特定的方法来访问到真实的数据。

4、 Hadoop环境下的数据保护。Hadoop是大数据时代最流行的数据存储方式,企业大量数据存储在HDFS中,因此需要对这部分数据进行充分的保护。Ron Ben Natan博士介绍,IBM对开源Hadoop以及IBM的BigInsights都提供这样的数据保护方案。

Ron Ben Natan博士介绍,IBM结合了传统数据治理的经验,在过去几年中积累并且建立了大数据治理的策略和Guardium产品,同样也是迄今为止市场中最完整的大数据治理产品组合。而未来IBM也会尽力去投资增加在大数据环境,尤其是NoSQL环境治理的工具和方案。对此Ron Ben Natan博士表示,尽管NoSQL并不是IBM传统关注的领域,但NoSQL对传统数据库的增强作用是显而易见的,因此IBM有许多客户都开始进行NoSQL的尝试。而包括电商等互联网客户,也存在着与传统供货商直接的业务交流,这其中可能就会涉及到相关NoSQL数据的治理。

“客户有这样的需求,IBM就会为客户提供你所需要的所有工具。” Ron Ben Natan博士说。


原文发布时间为:2013-12-20


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
传感器 存储 分布式计算
大数据成功实施三个V
大数据成功实施三个V
|
9月前
|
数据可视化 大数据 数据挖掘
大数据分析(数据建设)以后如何发展的思考?
大数据分析(数据建设)以后如何发展的思考?
72 0
|
存储 数据采集 分布式计算
大数据治理系列:6 如何保护大数据的安全和隐私
从安全和隐私的角度来看,大数据与其他传统数据不同,需要不同的方法。但是可以扩展许多现有的方法和实践,以支持大数据的安全和隐私模式。
大数据治理系列:6 如何保护大数据的安全和隐私
|
数据采集 监控 安全
大数据应用:大数据在医保管理中的应用与面临挑战
  医疗保险面临基金收支平衡压力增大、医疗服务违规行为多发、传统经验决策方式落后等多方面挑战,从信息化建设角度,人社部门推进全民参保登记、医保智能监控、支付方式改革和移动支付探索等工作,积极开展了医保大数据应用。但在应用过程中仍然面临数据质量有待提升、数据应用尚不充分、安全体系还需健全等问题。继续深化医保大数据应用,下一步应重点围绕四个方面:
1121 0