《数据分析变革:大数据时代精准决策之道》一2.2 为大数据做好准备

  1. 云栖社区>
  2. 博客>
  3. 正文

《数据分析变革:大数据时代精准决策之道》一2.2 为大数据做好准备

异步社区 2017-05-02 15:31:00 浏览1453
展开阅读全文

本节书摘来自异步社区《数据分析变革:大数据时代精准决策之道》一书中的第2章,第2.2节,作者【美】Bill Franks(比尔•弗兰克斯),更多章节内容可以访问云栖社区“异步社区”公众号查看

2.2 为大数据做好准备

如果企业现在对大数据已经有了正确的期望认知,那它应该再做好哪些准备呢?在制定大数据战略时,哪些概念最重要?本节讨论的正是可以帮我们做好准备,穿越大数据的炒作迷雾的话题。

2.2.1 大数据浪潮已经到来

毫无疑问,数据浪潮已经到来,每一家企业都要有能力驾驭数据浪潮,这样才能勇立潮头。这正是我所编写的《驾驭大数据》一书[6]的主题。我之所以选这个名字,是因为海洋是数据的一个非常好的比喻。试想乱石穿空、惊涛拍岸的场景。如果你坐在汽车内胎上,浪涛打身,这时即使浪涛不比你的腰身高多少,也能把你打翻。如果你身处大浪之下,大浪击打你的身体,肯定会把你弄伤。数据也是如此。数据量越积越多,最后变得巨大而难以应对。如果你只是任由数据浪潮击打你,那只会把你打翻,而你自己什么也得不到。

无论面对的是海浪还是数据浪潮,我们都要掌握好如何才能挺立潮头。海上冲浪要有冲浪板。那些对冲浪毫无概念的人,容易认为冲浪就是冲浪,冲浪板就是冲浪板,但事实并非如此。走到冲浪用品商店,四周看一看,肯定有很多种不同类型的冲浪板。冲浪板有长有短,形状也各有不同,有些有鳍,有些没鳍。冲浪运动员选择某种板型的原因与浪形、技巧娴熟度、是否追求速度以及是否要玩花式有关。

同样,当我们面对数据和分析时,门外汉经常会认为不就是采采数据、存存数据,然后再用个工具分析分析数据嘛。但理解分析的人会认为存取数据以及执行数据分析会用到很多不同种类的工具和平台。大数据肯定会加入一些新的工具组合,就像冲浪运动员一段时间过后会增加多块板子一样。正如在如何使用两块不同的冲浪板之间相似性大于差异一样,在不同类型的数据和分析上应用不同的分析工具和平台,相同之处同样也会大于差异。

做好准备开始大数据冲浪

如果有很强的员工可以帮助企业充分利用过往的数据,那么即便说需要投入一些精力,他们肯定也能用好大数据。就像职业冲浪选手能用冲浪板在任何地方冲浪一样,专业分析人员也一样可以使用任何工具或平台分析任何数据。
如果企业到了该使用大数据工具的时点,相应地,肯定需要配备熟稔工具用法的人员。就算给我最好的冲浪板,让我在最大的浪上冲,我保准我会掉下来,因为我压根不会冲浪。对于职业冲浪选手而言,就算到了新的海滩,面对新的冲浪板,对着大小、浪形都不怎么熟悉的浪花,肯定也能玩得很好。刚开始,他肯定也会歪歪斜斜,但几小时以后,他们就会立直,会像以往那样开始冲浪。那是因为新板子、新海滩、新海浪,这些都是增量变化。它们并非是不可克服的量子跃迁场景。同样,专家级专业分析人员已经掌握了大数据处理的底层技术,面对新数据和新需求,他们只需要把各自的技能略微调整即可。就像冲浪选手可以适应任何海滩上的任何板型的道理一样,专业分析人员在任何数据上执行任何分析时也一样能够适应,因为改变是增量进行的。这并非是一个不可克服的量子跃迁过程。

2.2.2 新信息使大数据变得更强大

是什么让大数据如此强大,如此让人兴奋?为什么我预测大数据能产生巨大的影响?根本原因在于大数据能够提供新的信息。[7]大数据源通常能够在某一两个维度上给企业提供新的信息。首先,大数据所能处理的数据细节是以往看不到的。其次,大数据还能提供以前获取不到的一些内容信息。

比方说,汽车厂商现在都使用大数据来预测汽修意向。这么多年,汽车一旦出现故障,车厂就要努力找出汽车发生故障的原因,推演出是哪些因素造成了故障的发生。今天,在发动机研发和测试期间,以及从新车销售后卖出的发动机上,嵌入式传感器都能提供密集的数据监控。利用这些传感器数据,汽车厂商现在都能在出现故障、车损之前识别出故障模式,这就是所谓的预测性维修。

有了发动机传感器数据,我们就能及早识别出故障警告。出现故障之前,有的部件是不是已经开始发热?在一个常见的电路问题发生之前,电池电压是不是已经有所下降?是不是有些部件会成组成对地坏掉而不是独自坏掉?以往,这些问题的答案肯定不能事先知晓,因为没有数据可以支撑答案。但是现在我们已经拿到这些数据,可以进行详尽的分析了。

在这个案例中,传感器数据的效能并不仅仅在于数据量本身。数据包含了以前没有提供过的全新信息。如果能够提前预测出问题,那么在故障发生之初,一般都还有时间可以主动把问题解决掉。这样,客户满意度会更高,保修成本则会更低,这是因为汽车到店后花的时间会更少,避免问题的发生通常也比问题发生后再进行修复的投入要更低。

以前,专业分析人员要花很多时间使用一组特定的数据源来对现成的模型做微调。一段时间过后,专业分析人员又会主动尝试应用最新最好的建模方法并增加从数据中衍生的指标。这样,模型能力会得到增量式提升,努力是有价值体现的。

几乎每一次新信息都会把新算法打败

企业激进地开展大数据业务,原因在于大数据往往能提供全新信息。使用既有数据调整当前的分析流程,肯定是有好处的。但是,增加新信息有可能会获得巨大收益。测试新信息的优先级应该永远比基于老数据测试新方法或新指标来得更高。
一次小小的改变就有可能会大幅提升某些特定分析流程的效能。只要发现与某个问题相关的新信息,企业就应该立即从传统调优方案上调头。新信息一旦被发现就会很有效能,分析专家这时应该不再思考如何使用现有信息来完善既有模型,而是立即把注意力投向新信息的融合和测试上。

即使对于新信息相当简单的使用,也会对分析流程的性能产生巨大的影响,其影响可能远超通过既有信息对流程做出的调整。即便说刚开始会做得比较粗糙,我们也要尽可能快地把新信息融合到既有流程当中。等到融合完成以后,再回过头来渐进地调整和完善分析流程。新信息几乎每次都能把基于既有信息的新算法和新指标打败。

2.2.3 找新问题提问

企业数据使用与工具应用的范围越来越广,在此基础之上,我们必须提升重视程度,寻找新问题提问,或者在老问题上提出新方法。通常,在发现新数据源的时候,人们往往能立即想到的是,如何针对老问题的已有解决方案增加某些新的能力。但我们还要再从两个角度进行思考,如图2-2所示。


798bfe13d2c707bed4eb52e71661e919bca0422b

首先,我们要找到那些可以使用新信息来解决的、全新的、具有差异性的问题。这是一个看似显而易见的提议,但人们往往容易墨守成规,只喜欢省事地把数据用于常见问题。然而,企业必须把工作重点放在找寻新的数据机会上。其次,我们还应该找到新方法来解决当下的问题。我们可以检视那些待解决的问题,思考这些问题是否可以通过引入新数据从一个全新的角度来解决。这么做肯定能提升洞察效力。[8]在客户数据上实施这些活动,有一个框架会给予帮助,也即动态客户策略,这个框架由Jeff Tanner在《Dynamic Customer Strategy: Big Profits from Big Data》一书[9]中提出。对动态客户策略感兴趣的读者,可以深入参考这本书。提出新问题从概念上讲很简单,所以,我们会把重点放在下面这个例子上,即如何使用大数据以全新的视角重温老问题。在医疗卫生行业,临床试验是黄金法则。临床试验通过所谓的双盲方法最终确定测试和控制结构。双盲临床试验中,医生和病人互相都不知道谁在接受何种治疗。这是一种严格控制下的环境,只有这样才能异常准确地查明治疗或者用药的正负效果。幸运的话,在投入数千万美元,经过许多年试验以后,临床试验会有2000~3000名试验参与者。这并非是一个很大的样本量。这说明,虽然临床试验可以准确测量研究人员预先想要测量的内容,但对于各种意外影响,测试数据根本不充分。

样本匮乏会造成何种结果呢?几年前,我身边出现过类似的场景,COX-2抑制剂止痛药系的多种药物,其中就有Vioxx和Celebrex,遇到了一些麻烦。研究人员发现这些药物与心脏病有关,是心脏病普通发病率的2~4倍[10]。在最初的临床试验中,这些问题并没有显现,产品上市好多年后问题才得以发现。

以全新视角思考待解决的问题

如果发现含有新信息的新数据,这时一定要记得重温老问题。往往是我们认为已经解决的问题,如果使用新信息来处理,方法会靠谱得多,同时问题解决的方法还是全新的。
我们快进到今天来看。在对照试验环境外,我们还能使用大数据来提升临床试验的效果吗?在不远的将来,详细的电子医疗档案肯定会变成常态化。药物一旦上市,就可以监控到千百万人的用药趋势。这时我们可以做到的是,考虑药物本身与其他各种药品组合以及治疗方案的配合使用,分析用药以后可能会产生的疾病组合。肯定有人会用错药,或是没有用好药品本身的药效,或者是用了其他本不该搭配使用的药物。这些事很可能无法在临床试验中得到有效的评估。

使用电子医疗历史档案,我们能够挖掘出预想之外的药品正负疗效(当然,我们同时要保护病人的隐私)。我们的数据当然不会来源于像临床试验这种充分受控的环境。不过,我们是不是有可能越来越早地识别出将要发生的事情,就像Vioxx会引发心脏问题那样?我们还需要做更进一步的对照研究才能验证那些从医疗档案中发现的结果,研究人员要知道从哪个地方查找速度会更快。我们不是要使用非对照医疗数据来替代临床试验,而是因为这关乎着研究人员识别新药与疗效正负效果的能力,是否能通过使用非对照数据而有巨大提升。需要做的就只是思考如何以不同的方式来解决问题,即便说这些问题当前已经被充分思考过。

2.2.4 数据留存不再是两元决策

大数据的出现使企业在数据收集、存储以及存储期限上的政策不得不做出相应改变。一直到最近还是这样,除非是最关键的数据,否则我们绝不能浪费资源,因为那样成本太高。如果数据足够重要,需要收集的话,即便说不需要永久保存,也有必要保存相当长的一段时间。当我们有了很多大数据资源以后,就必须从“收集或不收集”的两元决策转变态度,再也不能把收集到的数据无休止地永久保存下去。这时候,实施多级决策机制就是很有必要的。

首先,我们是不是一定要收集数据的各项内容呢?其次,数据源到底应该采集多少内容,要保留多长时间?对于大数据源来说,我们只能捕获到一小部分内容,而且我们获取到的数据在删除之前也只能保存很短一段时间。如何确定正确的方法,需要我们评估数据的当前价值和未来价值。

为了说明数据是否有收集价值,请看下面的例子。譬如说,你的房子通过传感器和宽带与外界有很多联系。每间屋子都有自己的恒温调节器,可以持续不断地把当前的温度反馈给中央控制系统,这样每个房间的温度才能保持恒定。恒温调节器在与中央控制系统通信时会持续不断地产生数据,但这些数据有价值吗?可以说,这些数据具有某些特定的战术价值,但如果说要长期获取这部分数据,很难想象其中的原因。除了系统更新升级以外,毫秒级温度其实也没什么意义。比方说,电力公司要把自己管辖范围内的所有家庭建筑的细节数据都存储下来,受存储能力的限制,电力公司将会不堪重负,但其实根本没有产生任何价值。

同时,我们也可以进行分析,减少数据量。降低数据量的过程,需要我们识别出可以忽略或者可以合并的数据字段,确保虽然工作指标比较少,但信息丢失程度比较低。例如,如果我们发现这样的规律,屋里相临房间的温差永远只有半度。这时,我们根本不需要保存每一个房间的温度值,只需要存储其中一个房间的温度值,并把它与一个区域内所有房间的读数关联起来即可。这样,数据存储需求肯定会下降,但信息分析的质量却不会相应下降。

在数据上使用过期限制

数据在保存一段时间后会被删除(如果已经把数据收集并保存下来),这是思想观念上的一次重大转变。我们有必要评估数据对于企业而言的时间价值。一些数据会立即失效,而另一些数据则会慢慢失效。作为今天大家的共识,只有一小部分数据会被长期保存。
在下面这个场景中,数据只是在一段时间内起到了关键作用。铁轨现在都安装了传感器,可以监控到火车的行进速度。直到最近,我才知道火车机车的车轮温度也是被监控的。如果机车上的载重不平衡,向一边倾斜的话,整个机车的车身就会倾斜。倾斜会把重量加在车身一边,摩擦就会增加,车轮温度会随之上升。如果车轮温度上升超过某个临界点就表明存在严重的失衡,失衡会有潜在的脱轨风险。火车在铁轨上呼啸而过,车轮其实是被实时监控的。如果一组车轮的温度超过警戒线,火车就会停车,有人会被派去检查和处理载重问题。从长期来看,这会节约大量资金,因为脱轨事件即使没有造成人员伤亡,肯定也是灾难性的,会有更多资金损失。

现在,我们重点来看收集到的车轮温度数据,以及它能发挥重要作用的时间段。比方说,一个大组列车在多天时段内行驶了2000英里的旅程。大约以30秒为固定时间间隔,测量各个车轮的温度。这时,收集数据并立刻分析就显得尤为重要了,只有这样才能保证不出任何问题。

现在往前快进几周。火车没有出现问题,安全抵达目的地,所有车轮读数都在期望温度半度以内。在那个时间点,保存读数实际上是没有意义的。而在旅途中进行采样是有意义的,这样异常点可以通过比对得到,这样就能保持一切正常。旅途中车轮温度的异常数据与平静旅途中的少量采样一样可以永久保存。其他数据根本就没有增加价值。

当然了,肯定还有数据要保存相当长的一段时间。银行或者经纪公司与客户之间可以维持几年甚至几十年的关系。这些企业需要保存客户的每一笔存款记录,以及与客户之间沟通的每一封邮件。这样才能做到更优质的长期服务,同时还能提供法律保护。这时,正如我们以往所做的那样,我们收集到的数据仍然会永久保存。

关键在于,企业会形成习惯,以一种全新的方式评估数据的收集、存储和保存策略。忽视数据的存在,以及删除收集到的数据,这种策略乍一看来让人很不舒服。但在大数据时代,这是很有必要的。

2.2.5 物联网时代即将到来

自2013年到2014年年初,物联网(Internet of Things,IOT)的概念逐渐引起了越来越多的关注。物联网是指所有东西都必须在线,相互之间都可以通信,且与我们有交互。随着传感器与通信技术变得越来越廉价,越来越多的物件都具备了与周围环境通信并报告信息的能力。我们看到,冰箱和钟表这类生活日用品正在与因特网进行连接,会定期发送和接收信息。

物联网肯定会产生海量数据。它甚至会超过以住所有其他大数据源的数据产生速度。关于物联网产生的大量数据,最有意思的是它们通常都是在战术层面发生的。任何通信的时间都非常短,而且包含的也只是简单信息。例如,钟表会从一个可靠外部源处收到一次实时更新,然后通过家庭网络把那条信息传递给房间内的其他钟表。总体而言,这肯定会产生大量数据,但大多数数据的价值都是很低的、非常偏战术层面的、非常短时的。

本书中给出的很多例子均可认为是物联网的一部分。一旦涉及传感器数据,基本可以算是就进入了物联网领域。如果所有设备均能互相通信,业务与消费者则均可从中获益。越来越多的个人物品间均可通信,伴随着这个趋势,许多新的机会点得以开启。

  • 房间会了解用户的照明、取暖等偏好,并会根据情况自动调节。
  • 当灯泡、空气清新剂等物品需要更换时,均可发生警告。
  • 根据个人以往消费记录以及物品过期信息,可自动创建购物清单。
  • 视频和音频内容会随着用户的脚步在房间内无缝切换,无需频繁开关设备。
  • 位于用户身体上或靠近用户身体的传感器设备会监控和报告用户的睡眠模式、卡路里消耗、体温以及所有其他类别的事实数据。

我们的物品会成为最大的个人数据来源

物联网来得可真快。过不了多久,我们的物品,不论大小,都会安装传感器,相互之间均可通信。今天我们所收集的那些数据与个人物品产生的数据量相比,则会相形见绌。而个人图像以及视频存储的数据量在与所有个人物品发送的各种数据量相比时,也会相形失色。
虽然物联网的出现会驱动产生最大体量的数据,但与多数数据相比,其上的过滤力度要强劲得多。事实上,我们决定保存下来的数据肯定是相对可控的。物品在不停地自由通信,而我们其实只需要捕获那些关键的通信片段。第6章对此将有更多的讨论。

很快,物联网就会变成一个非常热门的、非常流行的话题。我们不可能只拿这么短的介绍来评判话题的公正性,但这个主题绝对不能忽视。就像大数据一样,物联网方面的书籍和文章也一样会马上泛滥起来。感兴趣的读者一定会谨慎观察趋势发展。正如本书当中许多示例所描述的那样,许多运营型分析活动都是由来自我们身边各式各样的物品所产生的数据来驱动的。物联网很快就会变成各家企业分析策略中的重要一环。

网友评论

登录后评论
0/500
评论
异步社区
+ 关注