数据湖:用以分析客户数据的一种更好的方式

  1. 云栖社区>
  2. 博客>
  3. 正文

数据湖:用以分析客户数据的一种更好的方式

青衫无名 2017-07-03 14:07:00 浏览924
展开阅读全文

“我们的目标是尽可能快的将数据植入我们的业务,使得我们能够不断发掘出新的业务机会。”The Weather Company的执行副总裁首席技术官兼首席信息官布莱森·克勒表示说。在任何一个项目中,花费较长的时间,却只是为了清理数据是不现实的。鉴于在如此众多的新的数据来源方面,每天发生的变化都是如此之大,因此单纯的执行数据整理方面的工作永远是都不完整的。”

克勒想把从任何地方的所有数据来源所收集到的数据都整合起来,这其中包括了个别气象站点的数据和物联网传感器所收集的数据,以便能够进行大量的数据分析工作。而如果要借助传统的数据仓库,这项工作几乎是不可能的,因为新的数据的属性大多都是非结构化的、而且其数量庞大,同时其任务的验证和开发过程往往需要花费漫长的时间。

“我们从很多初创公司那里获得了大量的数据,当然我不能要求这些公司专门为我们创建一种专门的数据格式。这将削弱他们的竞争优势,否则他们就会选择别的合作伙伴了。”克勒说。

而为了避免这种潜在的麻烦,两年前,The Weather Company成为了数据湖的早期采用者。这种方法允许该企业能够以一种不可知的方式获取、分析和存储非结构化、半结构化和结构化的数据,该方法比传统的数据仓库提供了更为灵活的存储。

今天的许多数据湖都能够与Apache的Hadoop开源分布式框架进行兼容,以用来存储和处理数据。EMC、IBM、微软、惠普企业和Informatica公司均提供运行Hadoop的数据湖平台。(IBM最近从The Weather Company采购了一些数字资产。)

The Weather Company为其数据湖使用了Amazon S3,以及Apache的Cassandra数据库和Apache的Spark,以便进行实时的数据分析处理,克勒说。借助其数据湖战略,The Weather Company可以接受来自135000个世界各地的爱好者的独立的个人气象站的数据。这些数据信息汇集到数据湖,并与其它诸如雷击和湍流事件的关键数据信息整合,得以能够为该公司的天气数据科学家和业务专家提供相关的洞察见解。

自从该数据湖项目启动以来,The Weather Company已经能够将其温度预测的准确性提高了2度。“而在天气预测领域,2度的意义无疑是相当重大的。”克勒说。

数据湖在哪些领域奏效,哪些领域不起作用

普华永道分析实践的合伙人Oliver Halter表示说,企业所收集的数据量及其速度正在发生变化,而更多数据来源的获得将引导更多的企业考虑采用数据湖。

如果一家企业试图采用数据仓库来完全整合15个不同数据源的数据,那么,在同一时间,“另外50个可用的数据来源的数据,也是有价值的。” Halter说。

咨询公司Hurwitz &Associates的总裁兼首席执行官朱迪斯·赫维茨表示认可这两个不同的服务目的。“当您想要了解您企业的竞争对手,和您企业的蓝色衬衫的销售情况、以及大家都是如何在网上谈论蓝色衬衫时,您就可以抓取一切关于蓝衬衫的数据信息,并将这些数据信息汇集到您企业的数据湖。”她说。

当涉及到数据仓库或数据湖时,“这不是一个成本问题”,她解释说。如果您真的把数据分析与您企业的商业决策结合起来,并同时希望您所依靠的这些数据信息必须最好是干净的和完全可靠的,那么您可能不会选择使用数据湖了。”

因为如果是基于错误的原因、以错误的方式实施了数据湖,其是有可能导致项目失败的。”如果您需要做的是财务报告或一项政府机构的政令文件,那么您所依靠的数据信息必须是尽可能干净的,此时,数据仓库或许才是合适的解决方案。” Halter说。

“因为当您在执行相对原始的数据分析时,采用的是非标准化的数据,就可能会在这过程中产生较多的误解的机会,或根本是匹配了不完善的数据,可能会导致分析结果不够准确精密,也就无法生成准确的财务报表或交易报告了。”她解释说。数据湖中的数据科学更倾向于进行趋势的分析预测和大方向的正确性,而不是提供精确的结果。

Halter建议广大读者可以采用另一种方式来理解数据湖和数据仓库间的差异化关系。“如果您需要一组事实数据,将这些数据结合起来,并且需要对其进行严格的审查——例如,’我们在3月31日的未付的应收账款是3567444556元’——那么您所需要的是数据仓库的方法。”她说。“而如果您所需要的是提供方向性指导——例如,’我们认为,某某市场将增长60%至80%’或’客户有35%的更高的可能性购买A产品而非B产品’——那么此时,数据湖的方法便是更为适合的方案了。”

在大多数情况下,一家企业组织将同时拥有数据仓库和数据湖。“一旦您在数据湖中发现一些对企业组织是有价值的东西,可以您希望重复该情况,那么其就可以被转移到数据仓库,实现规范化和统一。” Halter说。

数据湖的数据并不完美

Synchrony Financial是一家消费者金融服务公司,与Synchrony银行共同提供银行联名信用卡及其他私人金融信贷业务。该公司目前就同时运行着数据仓库和数据湖。尽管该公司的数据湖目前还只是在试点模式中,其首席技术官格雷格·辛普森希望在不久的将来能够让数据湖项目派上重点用途。

辛普森表示说,他所在的公司拥有非常良好的数据财富,大部分来自其他金融来源并汇集到该公司数据湖的数据都是干净且标准规范化的,因为该行业是属于高度管制的行业。该数据湖将有助于帮助该金融服务公司整合社交媒体的数据,以帮助他们更好的研究客户的行为和市场趋势。

“我倾向于获得干净的数据信息,但事实上,我也能够克服那方面的困难。”他说。“实际情况是,我们需要能够进行数据分析,以优化我们目前的业务,并找到相邻的业务。这意味着,我们不会按照正常化的模式创造这个主数据模型和数据集市。”

例如,在分析客户的购物习惯,以制定相应的营销策略的过程中,Synchrony公司并不需要准确地知道顾客在度日差为78的情况下是否要比度日差为79的情况下会购买更多的东西。“我们只需要知道这是一个非常好的一天,消费者有了购物行为就行了。”辛普森说。有了这个信息, Synchrony公司就可以决定客户会希望在什么时候在他们的智能手机上看到商店弹出的报价促销了。

Synchrony公司使用Hadoop作为其框架,并采用SQL进行数据分析,作为其从公司的系统以及外部资源获得数据的接口。“Hadoop已经成为商业化的工具集,可轻松实现部署。”辛普森说。

现在,随着所需数据的增加,数据湖也将随着项目的增多而进一步扩大。然而,最终,数据湖将会有足够的数据,而数据科学家们可以将其作为一个整体进行研究,并找到更多的价值。

例如,项目 A的重点是Synchrony公司将如何定位目标客户,并对消费者实施有针对性的市场营销;而项目 B的重点则是分析呼叫中心的数据,并对其实施优化。“而对于我们甚至没有想到的项目C,其可能会伴随着前两个项目的不断推进而衍生出来;或者是源于数据湖中有了来自其它数据来源的数据。”他说。

辛普森是数据湖这一概念的粉丝,因为其可以帮助该公司避免牵扯到数据仓库的更复杂和长期的任务。“我们的数据仓库通常用于处理高度重复的,且不太频繁的事情,如每月的财务报告。这些都是时间点的问题,我们不会再回到过去了。”他说。“如果您需要花费六周时间去做那些工作,那么您将失去您的业务。”

了解数据湖的环境和元数据

一个令辛普森困扰的问题是:一旦数据被汇集到数据湖之后,其要如何理解数据湖的环境。比如说,如果他收集了来自Facebook的相关帖子的数据,然后想评估这些帖子中关于他们公司的负面情绪的评论,他会想知道这些帖子中,10个中有一个是负面的;或是1000个中有一个是负面的,以及这些负面的帖子都被发布在哪里了。

非营利环保国际保护组织的高级技术总监兼对外关系高级主管Eric Fegraus对于元数据也有类似的的担忧,现在他正打算创建一个数据湖。

目前被孤立在政府机构、大学和非营利组织机构的数据将在数据湖共享。“在传统的包括了林业资源、生物多样性、生态和海洋生态系统的自然资源世界,对于数据存在着巨大的缺乏。”Fegraus表示说。而由于传感器、摄像头和其他物联网设备的广泛普及,使得数据可以被捕获收集并远程传输到一个中央存储库。上述这一状况正在开始发生改变。

Fegraus希望能够尽快开发和实施数据捕获的最佳实践方案,以便使得科学家们所收集的数据信息不会因为他们的资助结束或他们转移到别的项目就消失。“我们正在积极构建一个系统,将使数据存储库能够共享和集成数据。其功能将像一个湖,但具有许多相互连接的节点。”他说。

对于其试点项目,Fegraus打算在其数据湖填充一些初始节点,具有图像、声音及该组织设置在野外的数千台相机所收集的元数据。“这些数据使我们能够理解正在野生动物种群身上发生的事情,为土地管理人员提供了数据驱动的见解,帮助他们了解野生动物的现状和在陆地上生长的趋势。”他解释说。

“我们也可以开始梳理可以推动我们发现相关趋势的数据信息。”Fegraus说。例如,在乌干达的一处野生动物园,在设置好了摄像头之后,工作人员开始注意到金猫的物种的下降。

他解释说:“我们也可以说,有一个强烈的信号,预示了人类的活动可能会影响到了这一特殊种类的猫的生存。”由于该处野生动物公园主要游览主题是大猩猩生态旅游和游客徒步旅行去看大猩猩。他们把金猫数量下降的变化与公园里允许游客徒步参观的范围相联系,从而已经了解了如何更好地管理公园,而不会影响到金猫的生存。

不仅他的团队将能够使用来自他们项目所收集的数据,其他组织也将能够访问相同的数据集。

但是,与辛普森一样,Fegraus也同样感觉到元数据的处理是相当棘手的。在参与组织之间规定数据使用的协议最有可能会使用元数据来维护数据的完整性。例如,科学家在收集拍照过程中,是否使用诱饵或相机的闪光灯是否打开是非常必要的信息,其可能会影响结果,但保持原始数据可能是相当具有挑战性的。

处理“无底洞”的概念

这方面的另一个障碍是:需要收集哪些数据信息,同时需要将这些数据信息保存多久。“您可以收集如此众多的数据信息,其会使您耗尽存储空间,而且这也是有成本代价的。”Fegraus说。因此,数据湖中所存储的应该是那些项目驱动的数据,而不是任何可用的数据。

虽然数据湖似乎是深不见底的,但其实并不是的。据市场调研机构Gartner公司的数据管理策略研究总监Svetlana Sicular介绍说。“人们总是对于可能会失去一些东西感到紧张,所以他们会尽一切可能的收集一切可以获得的数据信息。然后,他们又会变得非常紧张,因为他们需要展示出迅速增长的数据湖的价值。但价值是通过数据分析而获得的。”她说。而那些仅仅只是把数据湖视为“只写”的公司也会失败;换句话说,人们需要读取和写入信息,以便充分利用这些数据信息。

“有一个普遍存在的概念,即数据仓库将很快会消失,您企业将会在数据湖中执行所有的一切数据分析处理工作。” Sicular说。“这是一个谬误。为什么要采用一些并非专门为其设计的技术来执行一些工作任务呢?”她补充说,只有当以正确的方式被使用时,数据湖才是唯一符合成本效益的。

她提醒企业组织要更仔细地审视自己的数据仓库,并要在开始部署采用数据湖的路线之前,确保其到底是不是正确的工具。很多人对于数据仓库的理解还停留在五年前,Sicular说,但是现在的很多数据仓库均已经具备处理非结构化数据的能力了。此外,她还建议企业必须考虑他们要分析的数据中有多少数据其实是非结构化的。

保持企业组织的竞争优势

那么,企业组织到底应该在何时使用数据湖呢?”如果您企业组织需要分析各种类型的数据、而这些数据存储在数据仓库中又不会有多大意义时,便可采用数据湖。” Sicular说。另一种应用案例是:“如果花时间去清洗数据会使您企业失去竞争优势的话,那么,数据湖将会是一个的完美使用案例。”她补充说。

而这正是推动国际卡车公司(International Trucks)使用数据湖的基本原因了。Navistar控股的这家卡车制造商的物联网分析和机器学习负责人Andy Minteer表示说,该公司所收集到的进入其基于Hadoop的数据湖的数据流使得改公司保持了始终对于其竞争对手领先一步。

国际卡车公司有超过160000辆汽车参加了该公司的OnCommand连接项目计划,该项目计划使用来自安装在车辆上的传感器的数据流,包括该公司的卡车和校车,每隔15到20秒来评估一次车队的运输健康状况。

例如,通过分析数据湖的原始数据,该公司能够帮助一只校车车队的经理确定电池的阈值电压,这样就使得巴士不回在寒冷的接送孩子的途中出现故障,让孩子们滞留在外。

他的团队还开发了一种算法,通过结合超过40000辆车辆的组合类型和故障代码(非结构化数据)来梳理数据信息,以协助更小的车队制定车辆的预防性维护时间表。 Minteer研究了这些公路车队的原始数据,其往往会有较高的行驶里程数,并发现可能出现的问题,这样他们就可以及时安排车辆的维修,避免出现车辆的停运。

他说:“这是一场获取价值和机会的竞争,而借助数据湖工具,我们现在可以很容易且成本有效的参与市场竞争了。”他说。现在,我们知道,数据的可用要比其以一种特定的格式存储在某个地方更为重要。”

本文转自d1net(转载)

网友评论

登录后评论
0/500
评论
青衫无名
+ 关注