《大数据导论》理解大数据-阿里云开发者社区

本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第1章，第1节，作者托马斯·埃尔（Thomas Erl），瓦吉德·哈塔克（Wajid Khattak），保罗·布勒（Paul Buhler）更多章节内容可以访问云栖社区“华章计算机”公众号查看。

理解大数据

大数据是一门专注于对大量的、频繁产生于不同信息源的数据进行存储、处理和分析的学科。当传统的数据分析、处理和存储技术手段无法满足当前需求的时候，大数据的实践解决方案就显得尤为重要。具体地说，大数据能满足许多不同的需求，例如，将多个没有联系的数据集结合在一起，或是处理大量非结构化的数据，抑或是从时间敏感的行为中获取隐藏的信息等。

虽然大数据看起来像是一门新兴的学科，却已有多年的发展历史。对大型数据集的管理与分析是一个存在已久的问题—从利用劳动密集方法进行早期人口普查的工作，到计算保险收费背后的精算学科，都涉及这个方面的问题，大数据就由此发展起来。

作为对传统的基于统计学分析方法的优化，大数据加入了更加新的技术，利用计算资源和方法的优势来执行分析算法。在当今数据集持续地扩大化、扩宽化、复杂化和数据流化的背景之下，这种优化十分重要。自《圣经》时代以来，统计学方法一直在告诉我们通过抽样调查的手段能够粗略地测量人口。但计算机科学目前的发展使我们完全有能力处理那样庞大的数据集，因此抽样调查的手法正在逐渐“失宠”。

对于大数据的数据集的分析是一项综合数学、统计学、计算机科学等多项专业学科的跨学科工作。这种多学科、多观点的混合，常常会使人对大数据及大数据分析这门学科所涵盖的内容产生疑问，每个人都会有不同的见解。大数据问题所涵盖的内容范围也会随着软硬件技术的更新而变化。这是因为我们在定义大数据的时候考虑了数据特征对于数据解决方案本身的影响。比如30年前，1GB的数据就称得上是大数据，而且我们还会为这份数据专门申请计算资源，而如今，1GB的数据十分常见，面向消费者的设备就能对其进行快速的存储、转移、复制或者其他处理。

大数据时代下的企业数据，常常通过各种应用、传感器以及外部资源聚集到企业的数据集中。这些数据经过大数据解决方案的处理后，能够直接应用于企业，或者添加到数据仓库中丰富现有的数据。这种大数据解决方案处理的结果，将会给我们带来许多深层知识和益处，例如：

运营优化

可实践的知识

新市场的发现

精确的预测

故障和欺诈的检测

详细的信息记录

优化的决策

科学的新发现

显然，大数据的应用面和潜在优势十分广阔。然而，在何时选用大数据分析手段的问题上，还有大量的问题需要考虑。当然，我们需要去理解这些存在的问题，并与大数据的优势进行权衡，最终才能做出一个合理的决策并提出合适的解决方案。这些内容我们将在第二部分单独讨论。

1.1　概念与术语

作为开端，我们首先要定义几个基本概念和术语，以便大家理解。

1.1.1　数据集

我们把一组或者一个集合的相关联的数据称作数据集。数据集中的每一个成员数据，都应与数据集中的其他成员拥有相同的特征或者属性。以下是一些数据集的例子：

存储在一个文本文件中的推文（tweet）

一个文件夹中的图像文件

存储在一个CSV格式文件中的从数据库中提取出来的行数据

存储在一个XML文件中的历史气象观测数据

图1.1中显示了三种不同数据格式的数据集。

图1.1　数据集可以有多种不同的格式

1.1.2　数据分析

数据分析是一个通过处理数据，从数据中发现一些深层知识、模式、关系或是趋势的过程。数据分析的总体目标是做出更好的决策。举个简单的例子，通过分析冰淇淋的销售额数据，发现一天中冰淇淋甜筒的销量与当天气温的关系。这个分析结果可以帮助商店根据天气预报来决定每天应该订购多少冰淇淋。通过数据分析，我们可以对分析过的数据建立起关系与模式。图1.2显示了代表数据分析的符号。

图1.2　用于表示数据分析的符号

1.1.3　数据分析学

数据分析学是一个包含数据分析，且比数据分析更为宽泛的概念。数据分析学这门学科涵盖了对整个数据生命周期的管理，而数据生命周期包含了数据收集、数据清理、数据组织、数据分析、数据存储以及数据管理等过程。此外，数据分析学还涵盖了分析方法、科学技术、自动化分析工具等。在大数据环境下，数据分析学发展了数据分析在高度可扩展的、大量分布式技术和框架中的应用，使之有能力处理大量的来自不同信息源的数据。图1.3显示了代表数据分析学的符号。

图1.3　用于表示数据分析学的符号

大数据分析（学）的生命周期通常会对大量非结构化且未经处理过的数据进行识别、获取、准备和分析等操作，从这些数据中提取出能够作为模式识别的输入，或者加入现有的企业数据库的有效信息。

不同的行业会以不同的方式使用大数据分析工具和技术。以下述三者为例：

在商业组织中，利用大数据的分析结果能降低运营开销，还有助于优化决策。

在科研领域，大数据分析能够确认一个现象的起因，并且能基于此提出更为精确的预测。

在服务业领域，比如公众行业，大数据分析有助于人们以更低的开销提供更好的服务。

大数据分析使得决策有了科学基础，现在做决策可以基于实际的数据而不仅仅依赖于过去的经验或者直觉。根据分析结果的不同，我们大致可以将分析归为以下4类：

描述性分析

诊断性分析

预测性分析

规范性分析

不同的分析类型将需要不同的技术和分析算法。这意味着在传递多种类型的分析结果的时候，可能会有大量不同的数据、存储、处理要求。如图1.4所示，生成高质量的分析结果将加大分析环境的复杂性和开销。

图1.4　从描述性分析到规范性分析，价值和复杂性都在不断提升

1.描述性分析

描述性分析往往是对已经发生的事件进行问答和总结。这种形式的分析需要将数据置于生成信息的上下文中考虑。

相关的问题可能包括：

为什么Q2商品比Q1卖得多？

为什么来自东部地区的求助电话比来自西部地区的要多？

为什么最近三个月内病人再入院的比率有所提升？

诊断性分析比描述性分析提供了更加有价值的信息，但同时也要求更加高级的训练集。如图1.6所示，诊断性分析常常需要从不同的信息源搜集数据，并将它们以一种易于进行下钻和上卷分析的结构加以保存。而诊断性分析的结果可以由交互式可视化界面显示，让用户能够清晰地了解模式与趋势。诊断性分析是基于分析处理系统中的多维数据进行的，而且，与描述性分析相比，它的查询处理更加复杂。

3.预测性分析

预测性分析常在需要预测一个事件的结果时使用。通过预测性分析，信息将得到增值，这种增值主要表现在信息之间是如何相关的。这种相关性的强度和重要性构成了基于过去事件对未来进行预测的模型的基础。这些用于预测性分析的模型与过去已经发生的事件的潜在条件是隐式相关的，理解这一点很重要。如果这些潜在的条件改变了，那么用于预测性分析的模型也需要进行更新。

图1.6　诊断性分析能够产生可以进行上卷和下钻分析的数据

预测性分析提出的问题常常以假设的形式出现，例如：

如果消费者错过了一个月的还款，那么他们无力偿还贷款的几率有多大？

如果以药品B来代替药品A的使用，那么这个病人生存的几率有多大？

如果一个消费者购买了商品A和商品B，那么他购买商品C的概率有多大？

预测性分析尝试着预测事件的结果，而预测则基于模式、趋势以及来自于历史数据和当前数据的期望。这将让我们能够分辨风险与机遇。

这种类型的分析涉及包含外部数据和内部数据的大数据集以及多种分析方法。与描述性分析和诊断性分析相比，这种分析显得更有价值，同时也要求更加高级的训练集。如图1.7所示，这种工具通常通过提供用户友好的前端接口对潜在的错综复杂的数据进行抽象。

图1.7　预测性分析能够提供用户友好型的前端接口

4.规范性分析

规范性分析建立在预测性分析的结果之上，用来规范需要执行的行动。其注重的不仅是哪项操作最佳，还包括了其原因。换句话说，规范性分析提供了经得起质询的结果，因为它们嵌入了情境理解的元素。因此，这种分析常常用来建立优势或者降低风险。

下面是两个这类问题的样例：

这三种药品中，哪一种能提供最好的疗效？

何时才是抛售一只股票的最佳时机？

规范性分析比其他三种分析的价值都高，同时还要求最高级的训练集，甚至是专门的分析软件和工具。这种分析将计算大量可能出现的结果，并且推荐出最佳选项。解决方案从解释性的到建议性的均有，同时还能包括各种不同情境的模拟。

这种分析能将内部数据与外部数据结合起来。内部数据可能包括当前和过去的销售数据、消费者信息、产品数据和商业规则。外部数据可能包括社会媒体数据、天气情况、政府公文等等。如图1.8所示，规范性分析涉及利用商业规则和大量的内外部数据来模拟事件结果，并且提供最佳的做法。

图1.8　规范性分析通过引入商业规则、内部数据以及外部数据来进行深入彻底的分析

1.1.4　商务智能

商务智能（BI）通过分析由业务过程和信息系统生成的数据让一个组织能够获取企业绩效的内在认识。分析的结果可以用于改进组织绩效，或者通过修正检测出的问题来管理和引导业务过程。商务智能在企业中使用大数据分析，并且这种分析通常会被整合到企业数据仓库中以执行分析查询。如图1.9所示，商务智能的输出能以仪表板显示，它允许管理者访问和分析数据，且可以潜在地改进分析查询，从而对数据进行深入挖掘。

图1.9　商务智能用于改善商业应用，将数据仓库中的数据以及仪表板的分析查询结合起来

1.1.5　关键绩效指标

关键绩效指标（KPI）是一种用来衡量一次业务过程是否成功的度量标准。它与企业整体的战略目标和任务相联系。同时，它常常用来识别经营业绩中的一些问题，以及阐释一些执行标准。因此，KPI通常是一个测量企业整体绩效的特定方面的定量参考指标。如图1.10所示，它常常通过专门的仪表板显示。仪表板将多个关键绩效指标联合起来展示，并且将实测值与关键绩效指标阈值相比较。

图1.10　KPI仪表板是评价企业绩效的核心标准

1.2　大数据特征

大数据的数据集至少拥有一个或多个在解决方案设计和分析环境架构中需要考虑的特征。这些特征大多数由道格·兰尼早在2001年发布的一篇讨论电子商务数据的容量、速率和多样性对企业数据仓库的影响的文章中最先提出。考虑到非结构化数据的较低信噪比需要，数据真实性随后也被添加到这个特征列表中。最终，其目的还是执行能够及时向企业传递高价值、高质量结果的分析。

这一节将探究5个大数据的特征，这些特征可以用来将大数据的“大”与其他形式的数据区分开。这5个大数据的特征如图1.11所示，我们也常常称为5V：容量（volume）；速率（velocity）；多样性（variety）；真实性（veracity）；价值（value）。

图1.11　大数据中的“5V”

1.2.1　容量

最初考虑到数据的容量，是指被大数据解决方案所处理的数据量大，并且在持续增长。数据容量大能够影响数据的独立存储和处理需求，同时还能对数据准备、数据恢复、数据管理的操作产生影响。图1.12形象地展示了每天来自世界范围内的组织和用户所产生的大量数据。

图1.12　世界上所有的组织和用户一天产生的数据超过2.5EB，作为对比，美国国会图书馆目前存储的数据大概为300TB

典型的生成大量数据的数据源包括：

在线交易，例如官方在线销售点和网银。

科研实验，例如大型强子对撞机和阿塔卡玛大型毫米及次毫米波阵列望远镜。

传感器，例如GPS传感器，RFID标签，智能仪表或者信息技术。

社交媒体、脸书（Facebook）和推特（Twitter）等。

1.2.2　速率

在大数据环境中，数据产生得很快，在极短的时间内就能聚集起大量的数据集。从企业的角度来说，数据的速率代表数据从进入企业边缘到能够马上进行处理的时间。处理快速的数据输入流，需要企业设计出弹性的数据处理方案，同时也需要强大的数据存储能力。

根据数据源的不同，速率不可能一直很快。例如，核磁共振扫描图像不会像高流量Web服务器的日志条目生成速度那么快。图1.13给出了高速率大数据生成示例，一分钟内能够生成下列数据：35万条推文、300小时的YouTube视频、1.71亿份电子邮件，以及330GB飞机引擎的传感器数据。

图1.13　高速率的大数据例子，包括推文、视频、电子邮件、传感器数据

1.2.3　多样性

数据多样性指的是大数据解决方案需要支持多种不同格式、不同类型的数据。数据多样性给企业带来的挑战包括数据聚合、数据交换、数据处理和数据存储等。图1.14展示了数据多样性的可视化形象，其中包括经济贸易的结构化数据，电子邮件的半结构化数据以及图像等非结构化数据。

图1.14　大数据多样性的例子，包括结构化数据、文本数据、图像数据、视频数据、音频数据、XML数据、JSON数据、传感器数据和元数据

1.2.4　真实性

数据真实性指的是数据的质量和保真性。进入大数据环境的数据需要确保质量，这样可以使数据处理消除掉不真实的数据和噪音。就数据的真实性而言，数据在数据集中可能是信号，也可能是噪音。噪音是无法被转化为信息与知识的，因此它们没有价值，相对应的，信号则能够被转化成有用的信息并且具有价值。信噪比越高的数据，真实性越高。从可控的行为中获取的数据（例如通过网络消费注册获得的数据）常常比通过不可控行为（例如发布的博客等）获取的数据拥有更少的噪音。而数据的信噪比独立于数据源和数据类型。

1.2.5　价值

数据的价值是指数据对一个企业的有用程度。价值特征直观地与真实性特征相关联，真实性越高，价值越高。同时，价值也依赖于数据处理的时间，因为分析结果具有时效性。例如20分钟的股票报价延迟与20毫秒的股票报价延迟相比，明显后者的价值远大于前者。正如前面所说，价值与时间紧密相关。数据转变为有意义的信息的时间越长，这份信息对于商业的价值就越小。过时的结果将会抑制决策的效率和质量。图1.15阐述了价值是如何被数据真实性以及生成结果的时间所影响的。

除了数据真实性和时间，价值也受如下几个生命周期相关的因素影响：

数据是否存储良好？

数据有价值的部分是否在数据清洗的时候被删除了？

数据分析时我们提出的问题是正确的吗？

数据分析的结果是否准确地传达给了做决策的人员？

图1.15　数据的保真性越高，分析时间越短，对商业有越高的价值

1.3　不同数据类型

虽然数据最终会被机器处理并生成分析结果，但经由大数据解决方案处理的数据来源，可能是人也可能是机器。人为产生的数据是人与系统交互时的结果，例如在线服务或者数字设备，图1.16显示了人为产生的数据的示例。

图1.16　人为产生的数据，例如社交媒体、博客博文、电子邮件、照片分享、短信等

机器生成的数据是指由软件程序和硬件设备对现实世界做出回应所产生的数据。例如，一个记录着安全服务的某次授权的日志文件，或者一个销售点管理系统生成的消费者购买的商品清单。从硬件的角度来看，大量的手机传感器生成的位置和信号塔信号强度等信息就是由机器生成数据的例子。图1.17清晰地表述了由机器生成的各种数据。

如上所述，人为产生的数据和机器生成的数据都是多源的，并且会以多种不同的格式呈现。这一节中我们将仔细审查大数据解决方案处理后的多种不同数据类型。主要的类型有以下三种：

图1.17　机器生成的数据，例如网页日志、传感器数据、遥感数据、智能电表以及应用数据

结构化数据

非结构化数据

半结构化数据

这些数据类型代表了数据的内部组织结构，有时也叫做数据格式。除了以上三种基本的数据类型以外，还有一种重要的数据类型为元数据，我们将在后面讨论。

1.3.1　结构化数据

结构化数据遵循一个标准的模型，或者模式，并且常常以表格的形式存储。该类型数据通常用来捕捉不同对象实体之间的关系，并且存储在关系型数据库中。诸如ERP和CRM等企业应用和信息系统之中会频繁地产生结构化数据。由于数据库本身以及大量现有的工具对结构化数据的支持，结构化数据很少需要在处理或存储的过程中做特殊的考虑。这类数据的例子包括银行交易信息、发票信息和消费者记录等。图1.18显示了代表结构化数据的符号。

1.3.2　非结构化数据

非结构化数据是指不遵循统一的数据模式或者模型的数据。据估计，企业获得的数据有80%左右是非结构化数据，并且其增长速率要高于结构化数据。图1.19显示了几种常见的非结构化数据。这种类型的数据可以是文本的，也可以是二进制的，常常通过自包含的、非关系型文件传输。一个文本文档可能包含许多博文和推文。而二进制文件多是包含着图像、音频、视频的媒体文件。从技术上讲，文本文件和二进制文件都有根据文件格式本身定义的结构，但是这个层面的结构不在讨论之中，并且非结构化的概念与包含在文件中的数据相关，而与文件本身无关。

存储和处理非结构化的数据通常需要用到专用逻辑。例如，要放映一部视频，正确的编码、解码是至关重要的。非结构化数据不能被直接处理或者用SQL语句查询。如果它们需要存储在关系型数据库中，它们会以二进制大型对象（BLOB）形式存储在表中。当然，NoSQL数据库作为一个非关系型数据库，能够用来同时存储结构化和非结构化数据。

图1.19　视频数据、图像数据、音频数据都是非结构化数据

1.3.3　半结构化数据

半结构化数据有一定的结构与一致性约束，但本质上不具有关系性。半结构化数据是层次性的或基于图形的。这类数据常常存储在文本文件中。图1.20展示了XML文件和JSON文件这两类常见的半结构化数据。由于文本化的本质以及某些层面上的结构化，半结构化数据比非结构化数据更好处理。

图1.20　XML数据、JSON数据和传感器数据均属于半结构化数据

半结构化数据的一些常见来源包括电子转换数据（EDI）文件、扩展表、RSS源以及传感器数据。半结构化数据也常需要特殊的预处理和存储技术，尤其是重点部分不是基于文本的时候。半结构化数据预处理的一个例子就是对XML文件的验证，以确保它符合其模式定义。

1.3.4　元数据

元数据提供了一个数据集的特征和结构信息。这种数据主要由机器生成，并且能够添加到数据集中。搜寻元数据对于大数据存储、处理和分析是至关重要的一步，因为元数据提供了数据系谱信息，以及数据处理的起源。元数据的例子包括：

XML文件中提供作者和创建日期信息的标签

数码照片中提供文件大小和分辨率的属性文件

图1.21　用于表示元数据的符号

1.4　案例学习背景

ETI（Ensure to Insure）是一家领先的保险公司，为全球超过2500万客户提供健康、建筑、海事、航空等保险计划。该公司拥有超过5000名员工，年利润超过3.5亿美元。

1.4.1　历史背景

ETI早在50年前建立之时，就是一家专业做健康保险计划的公司。在过去30年的不断收购过程中，ETI已经发展成了覆盖航空、航海、建筑等多个领域的财产险和意外险的保险公司。这几类保险中每一类都有一个核心团队，包括专业的以及经验丰富的保险代理人、精算师、担保人、理赔人等。

精算师负责评估风险，设计新的保险计划并优化现有保险计划，同时代理人则通过推销保险来为公司赚取利润。精算师也会利用仪表板和计分板来对场景进行假设评估分析。担保人则评估保险产品，并决定附加的保险费。理赔人则主要去寻找可能对保险政策不利的赔付声明并且最终决定保险政策。

ETI的一些核心部门包括担保部门、理赔部门、客户服务部门、法律部门、市场部门、人力资源部门、会计部门和IT部门。潜在的客户和现有的客户均通过客户服务部门的电话联系ETI，同时，通过电子邮件和社交平台的联系在近年来也在不断增加。

ETI通过提供富有竞争性的保险条款和终生有效的保险客户服务从众多保险公司中脱颖而出。其管理方针认为这样做能够有效地保留客户群体。ETI在很大程度上依赖于其精算师制定保险计划来反映其客户的需求。

1.4.2　技术基础和自动化环境

ETI公司的IT环境由客户服务器和主机平台组合构成，支持多个系统的执行政策。这些执行系统包括政策报价系统，政策管理系统，理赔管理系统、风险评估系统、文件管理系统、账单系统、企业资源规划（ERP）系统和客户关系管理（CRM）系统。

政策报价系统用作创建新的保险计划，并提供报价给潜在客户。它集成了网站和客户服务门户网站，为网站访问者和客户服务代理提供获取保险报价的能力。政策管理系统处理所有政策生命周期方面的管理，包括政策的发布、更新、续订和取消。理赔管理系统主要处理理赔操作行为。

一次理赔行为的成立，需要经过如下流程：法定赔偿人提交报告申请，然后理赔人将根据被一同提交上来的直接信息和来源于内外部资源的背景信息对这份报告进行分析，其后理赔才能成立。基于分析的数据，这次理赔行为将会根据固定的一系列商业规则来处理。风险评估系统则被精算师们用来评估任何潜在的风险，例如一次暴风或者洪水可能导致投保人索赔。风险评估系统使得基于概率的风险评估能利用数学和统计学模型量化分析。

文件管理系统是所有文件的储存中心，这些文件包括保险政策、理赔信息、扫描文档以及客户通信。账单系统持续跟踪客户的保险费同时自动生成电子邮件对未交保险费的客户进行催款。ERP系统用来每日运作ETI，包括人力资源管理和财务管理。而CRM系统则全面地记录所有客户的交流信息，从电话到电子邮件等，同时也能为电话中心代理人提供解决客户问题的桥梁。更进一步地，它能让市场小组进行一次完整的市场活动。从这些操作系统中得到的数据将被输送到企业数据仓库（EDW），该数据仓库则根据这些数据生成财务和业绩报告。EDW同时还被用于为不同的监管部门生成报告，确保监管的持续有效执行。

1.4.3　商业目标和障碍

过去的几十年里，该公司的利润一直在递减，于是任命了一个由多名高级经理组成的委员会，对该情况进行调查和提议。委员会发现，财政衰减的主要原因是不断增加的欺诈型理赔以及对这些理赔的赔偿。这些发现表明欺诈行为十分复杂，并且很难去检测，因为诈骗犯越来越富有经验和组织化。除了遭受的直接金钱损失，对诈骗行为的检测流程也造成了相当一部分的间接损失。

另一个需要考虑的因素是，近期多发的洪水、龙卷风和流感等增加真实赔付案例的灾害。其他财政衰减的原因还有由于慢速理赔处理导致的客户流失，保险产品不符合消费者现有需求。此外，一些精通技术的竞争者使用信息技术提供个性化的保险政策，这也是本公司目前不具备的优势。

委员会指出，近期现有法规的更改和新法规出台的频率有所增加。不幸的是，公司对此反应迟缓，并且没有能够确保全面且持续地遵守这些法规。由于这些问题，ETI不得不支付巨额罚金。

委员会强调，公司财政状况恶劣的原因还包括在制作保险计划和提出保险政策时，担保人未能完整详尽地评估风险。这导致了错误的保险费设置以及比预期更高的理赔金额。近来，收取的保险费与支出的亏空与投资相抵消。然而这不是一个长久的解决方案，因为这样会冲淡投资带来的利润。更进一步地，保险计划常常是基于精算师的经验完成的，而精算师的经验只能应用于普遍的人群，也就是平均情况。这样，一些情况特殊的消费者可能不会对这些保险计划感兴趣。

上述因素同样也是导致整个ETI股价下跌并且失去市场地位的原因。

基于委员会的发现，ETI的执行总裁设定了以下的战略目标：

1）通过三种方法降低损失：（a）加强风险评估，最大化平息风险，将这点应用到创建新保险计划中，并且应用在讨论新的保险政策时；（b）实行积极主动的灾难管理体系，降低潜在的因为灾难导致的理赔；（c）检测诈骗性理赔行为。

2）通过以下两种方法降低客户流失，加强客户保留率：（a）加速理赔处理；（b）基于不同的个体情况出台个性化保险政策。

3）通过加强风险管理技术，可以更好地预测风险，在任何时候实现和维持全面的监管合规性，因为大多数法规需要对风险的精确知识来确保，才能够执行。

咨询过公司的IT团队后，委员会建议采取数据驱动的策略。因为在对多种商业操作进行加强分析时，不同的商业操作均需要考虑相关的内部和外部数据。在数据驱动的策略下，决策的产生将基于证据而不是经验或直觉。尤其是大量结构化与非结构化数据的增长对深入而及时的数据分析的良好表现的支持。

委员会询问IT团队是否还有可能阻碍实行上述策略的因素。IT团队考虑到了操作的经济约束。作为对此的回应，小组准备了一份可行性报告用来强调下述三个技术难题：

获取、存储和处理来自内部和外部的非结构化数据—目前，只有结构化数据能够被存储、处理，因为现存的技术并不支持对非结构化数据的处理。

在短时间内处理大量数据—虽然EDW能用来生成基于历史数据的报告，但处理的数据量非常大，而且生成报告需要花费很长时间。

处理包含结构化数据和非结构化数据的多种数据—非结构化数据生成后，诸如文本文档和电话中心记录不能直接被处理。其次，结构化数据在所有种类的分析中会被独立地使用。

IT小组得出了结论：ETI需要采取大数据作为主要的技术来克服以上的问题，并且实现执行总裁所给出的目标。

1.5　案例学习

虽然ETI公司目前的策略选择了大数据技术作为实现它们战略目标的手段，但ETI并没有大数据技术，因此需要在雇佣大数据咨询团队还是让自己的IT团队进行大数据训练中进行选择。最终它们选择了后者。然而，只有高级的成员接受了完整的学习，并且转换为公司永久的大数据咨询员工，同时由他们去训练初级团队，在公司内部进行进一步大数据训练。

接受了大数据学习之后，受训小组的成员强调他们需要一个常用的术语词典，这样整个小组在讨论大数据内容时才能处于同一个频道。其后，他们选择了一个案例驱动的方案。当讨论数据集的时候，小组成员将会指出一些相关的数据集，这些数据集包括理赔、政策、报价、消费者档案、普查档案。虽然这些数据分析和分析学概念很快被接受了，但是一些缺乏商务经验的小组成员在理解BI和建立合适的KPI上依旧有困难。一个接受过训练的IT团队成员以生成月报的过程为例来解释BI。这个过程需要将操作系统中的数据输入到EDW中，并生成诸如保险销售、理赔提交处理的KPI在不同的仪表板和计分板上。

就分析方法而言，ETI同时使用描述性分析和诊断性分析。描述性分析包括通过政策管理系统决定每天卖的保险份数，通过理赔管理系统统计每天的理赔提交数，通过账单系统统计客户的欠款数量。诊断性分析作为BI活动的一部分，例如回答为什么上个月的销售目标没有达成这类问题。分析将销售划分为不同的类型和不同的地区，以便发现哪些地区的哪些类型的销售表现得不尽人意。

目前ETI并没有使用预测性分析和规范性分析手法。然而，对大数据技术的实行将会使他们最终能够使用这些分析手法，正如他们现在能够处理非结构化数据，让其跟结构化数据一同为分析手法提供支持一样。ETI决定循序渐进地开始使用这两种分析方法，首先应用预测性分析，锻炼了熟练使用该分析的能力后再开始实施规范性分析。

在这个阶段，ETI计划利用预测性分析来支持他们实现目标。举个例子，预测性分析能够通过预测可能的欺诈理赔来检测理赔欺诈行为，或者通过对客户流失的案例分析，来找到可能流失的客户。在未来的一段时间内，通过规范性分析，我们可以确定ETI能够更加接近他们的目标。例如，规范性分析能够帮助他们在考虑所有可能的风险因素下确立正确的保险费，也能帮助他们在诸如洪水和龙卷风的自然灾害下减少损失。

1.5.1　确定数据特征

IT团队想要从容量、速率、多样性、真实性、价值这5个方面对公司内部和外部的数据进行评估，以得到这些数据对公司利益的影响。于是小组轮流讨论这些特征，考虑不同的数据集如何能够表现出这些特征。

1.容量

小组强调，在处理理赔、销售新的保险产品以及更改现有产品的过程中，会有大量的转移数据产生。然而，小组进行了一个快速的讨论，发现大量的非结构化数据，无论是来自公司的内部还是外部，都会帮助公司达成目标。这些数据包括健康记录、客户提交保险申请时提交的文件、财产计划、临时数据、社交媒体数据以及天气信息。

2.速率

考虑所有输入流的数据，有的数据速率很低，例如理赔提交的数据和新政策讨论的数据。但是像网页服务日志和保险费又是速率高的数据。纵观公司外部数据，IT小组预计社交媒体数据和天气数据将以极快的高频到达。此外，预测还表示灾难管理和诈骗理赔检测的时候数据必须尽快处理，以最小化损失。

3.多样性

在实现目标的时候，ETI需要将大量多种不同的数据集联合起来考虑，包括健康记录、策略数据、理赔数据、保险费、社交媒体数据、电话中心数据、理赔人记录、事件图片、天气信息、人口普查数据、网页服务日志以及电子邮件。

4.真实性

从操作系统和EDW中获得的数据样本显示有极高的真实性。于是IT小组把这一点添加到数据真实性表现中。数据的真实性体现在多个阶段，包括数据进入公司的阶段、多个应用处理数据的阶段，以及数据稳定存储在数据库中的阶段。考虑ETI的外部数据，对一些来自媒体和天气的数据阐明了真实性的递减会导致数据确认和数据清洗的需求增加，因为最终要获得高保真性的数据。

5.价值

对于价值这个特征，从目前的情况来看，所有IT团队的成员都认同他们需要通过确保数据存储的原有格式以及用合适的分析类型来使数据集的价值最大化。

1.5.2　确定数据类型

IT小组成员对多种数据集进行了分类训练，并得出如下列表：

结构化数据：策略数据、理赔数据、客户档案数据、保险费数据；

非结构化数据：社交媒体数据、保险应用档案、电话中心记录、理赔人记录、事件照片；

半结构化数据：健康记录、客户档案数据、天气记录、人口普查数据、网页日志及电子邮件。

元数据对于ETI现在的数据管理过程是一个全新的概念。同样的，即使元数据真的存在，目前的数据处理也没有考虑过元数据的情况。IT小组指出其中一个原因，公司内部几乎所有的需要处理的数据都是结构化数据。因此，数据的源和特征能很轻易地得知。经过一些考虑后，成员们意识到对于结构化数据来说，数据字典、上次更新数据的时间戳和上次更新时不同关系数据表中的用户编号可以作为它们的元数据使用。

《大数据导论》理解大数据

热门文章

最新文章

相关课程

相关电子书

相关实验场景