数据湖恶化成了数据沼泽?你一定没有注意这3点-阿里云开发者社区

数据湖恶化成了数据沼泽?你一定没有注意这3点

2017-10-02 1216

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

多年来，在Apache Hadoop等技术的支持下，组织一直在寻求构建数据湖——企业范围的数据管理平台，允许以原生格式存储所有数据。数据湖可通过提供给一个单一的数据存储库来打破信息孤岛问题，整个组织都可以使用从业务分析到数据挖掘的所有东西。原始和不受约束，数据湖被认为是一个包罗万象的大数据。

但是，商业智能(BI)软件专家，金字塔分析公司的首席技术官Avi Perez说，他看到许多客户的数据湖正在恶化为数据沼泽——完全无法接近终端用户的大量数据存储库。

“数据库真的很贵。”Perez说，“数据湖从根本上解决了这个问题。数据湖以及所有大数据方案，都来自于市场压力，其次，现实世界的数据生成器会吐出大量的数据，你需要找到一个方法去存储它们。”

但是，尽管许多世界上最好的公司都在他们的数据湖周围建立了业务(谷歌就是一个很好的例子)，但很多公司在收集了数据之后却没有任何清晰的办法来获取价值。

“他们更像是在收集灰尘。”Perez说，“也可以说在收集垃圾，一些最终都会被抛弃的垃圾。最后，你为那些东西增加了预算，却什么都不做。”

这并不是说数据湖背后的想法是糟糕的。Perez确信，所有的公司最终都需要一个数据湖。但是如何创建一个数据湖，让终端用户真正从中受益，这是需要深思熟虑的。

为了避免在自己的数据湖中溺水，Perez建议采用以下三条原则：

1、只收集少量的数据，至少在一开始的时候。

Perez表示，组织所犯的最大的错误之一就是收集太多的数据，而其中原因仅仅是他们有这个能力。很多时候，个人也是这样。细想一下，你手机里存了成百上千张图片，有都少是自己真正想保存的?很多人没有删掉多余的图片，只是因为手机容量够大。

“你的手机上有10亿张照片，其中99%就可能是垃圾，而且在删除它们的时候还可能会有点儿舍不得。”他说，“用手机拍照很容易，基本上是免费的。你可能回想，‘有一天我会去清理它’，但只要存储容量仍然充足，就很少有人会这样做。这就叫做收集了大量的信息，却没办法有效使用它们。”

当你想要给某人看一张很有意思的照片时，就不可避免地需要往后翻阅很多张无关的照片。

Perez说，同样的事情也发生在数据湖上。在Hadoop中存储数据并不昂贵，甚至常会被认为是免费的。但是，大量累积的数据会让你很难真正地访问数据，来为自己提供有价值的信息。

“我认为，避免这种情况的方法实际上是把水龙头给关掉。”Perez说，“基于这样一种假设，仅仅是收集数据的成本很低，并不会让使用数据变得更便宜。这可能真的很贵。所以，不要总想着无休止地收集信息。把它放在一个数据集中，制定一个具体的计划，弄清楚自己该如何去挖掘它。”

2、采用机器学习战略

即使有了一个集中的数据集，从大规模的数据中获得有价值见解也需要自动化。

“你需要一个自动化的系统来清洗数据。”Perez说，“人工智能、机器学习、深度学习，无论你想使用哪一种，都会是一个非常神奇的解决办法。我认为，从你巨大的数据湖中获取价值的最简单的办法就是，拥抱这一项新技术。”

Perez说，首先选择一个数据集，然后通过一项机器学习技术来完成它。当然，新的技术意味着新的技能、人才需求，你可以对现有员工进行培训，也可以聘请一些专业人士。

“机器学习是一门黑色艺术。”他说，“这并不容易做到，需要非常细分的技能。”

3、确定你想解决的商业问题

所有的事情都应该是完整的：你需要从一个清晰的视角来开始你想要解决的商业问题。有了一个客观的目标，相对会更容易把你需要收集的数据和最好的机器学习技术应用起来。

例如，Perez说，可以将自己想象成一个大卖场，你决定去了解什么样的顾客会进入你的商店。你可以捕捉顾客进入商店的图片，然后使用一个复杂的神经网络(CNN)——一种擅长于计算机视觉问题的深度学习神经网络——来处理图像。CNN可以通过一个人的形象确定是男性还是女性，是孩子还是成年人，是年轻人还是老年人等等。

“一旦你完成了所有工作，就可以把它与一个商业计划联系起来，并把它交给你的业务用户。”Perez说，“这可以帮助你做出决策——‘我们需要更多地向男性市场推销，因为我们没有足够多的男性客户’。你真的需要事先有一个明确的战略，如果不这样做，仅仅是对事物的收集就会对整个过程产生巨大的负面影响。”

一旦你在头脑中建立了一个业务计划，通常就可以迭代该功能，从而为业务提供更有针对性的解决方案。例如，一旦你确定是谁走进了你的商店，你就可以用同样的能力来确定谁会走过你的化妆品柜台。

本文作者：谢涛

来源：51CTO

数据湖恶化成了数据沼泽?你一定没有注意这3点

热门文章

最新文章

相关课程

相关电子书

相关实验场景