《R语言数据挖掘》----1.3 数据挖掘

简介:

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.3节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 数据挖掘

数据挖掘就是在数据中发现一个模型,它也称为探索性数据分析,即从数据中发现有用的、有效的、意想不到的且可以理解的知识。有些目标与其他科学,如统计学、人工智能、机器学习和模式识别是相同的。在大多数情况下,数据挖掘通常被视为一个算法问题。聚类、分类、关联规则学习、异常检测、回归和总结都属于数据挖掘任务的一部分。
数据挖掘方法可以总结为两大类数据挖掘问题:特征提取和总结。

1.3.1 特征提取

这是为了提取数据最突出的特征并忽略其他的特征。下面是一些例子:
频繁项集(Frequent itemset):该模型对构成小项集篮子的数据有意义。(找出一堆项目中出现最为频繁、关系最为密切的一个子集。——译者注)
相似项(Similar item):有时你的数据看起来像数据集的集合,而目标是找到一对数据集,它们拥有较大比例的共同元素。这是数据挖掘的一个基本问题。

1.3.2 总结

目标是简明且近似地对数据集进行总结(或者说摘要),比如聚类,它是这样一个过程:检查数据的集合并根据某些度量将数据点分类到相应的类中。目标就是使相同类中的点彼此之间的距离较小,而不同类中的点彼此之间的距离较大。

1.3.3 数据挖掘过程

从不同的角度定义数据挖掘过程有两种比较流行的过程,其中更广泛采用的一种是CRISP-DM:
跨行业数据挖掘标准过程(Cross-Industry Standard Process for Data Mining,CRISP-DM)。
采样、探索、修正、建模、评估(Sample, Explore, Modify, Model, Assess,缩写为SEMMA),这是由美国SAS研究所制定的。

1.3.3.1 CRISP-DM

这个过程共分6个阶段,如下图所示。它不是一成不变的,但通常会有大量的回溯。

QQ_20170524141240

让我们详细地看一看每个阶段:
业务理解(business understanding):这项任务包括确定业务目标、评估当前形势、建立数据挖掘目标并制订计划。

数据理解(data understanding):这项任务评估数据需求,包括原始数据收集、数据描述、数据探索和数据质量的验证。

数据准备(data preparation):一旦获得数据,在上一步中确定数据源。然后需要对数据进行选择、清洗,并形成期望的形式和格式。

建模(modeling):可视化和聚类分析对于初步分析是有用的。可以应用像广义规则归纳(generalized rule induction)这样的工具开发初始关联规则。这是一个发现规则的数据挖掘技术,从条件因素与给定的决策或者结果之间的因果关系来对数据进行说明。也可以应用其他适用于数据的模型。

评估(evaluation):结果应该在第一阶段中的业务目标指定的环境下对模型结果进行评估。在大多数情况下,这会导致新需求的确定,转而返回到前一个阶段。

部署(deployment):可以使用数据挖掘来验证之前的假设或者知识。

1.3.3.2 SEMMA

下图是SEMMA过程的概览。

QQ_20170524141515

让我们详细地看一看这些过程:
采样(sample):在该步中,提取一个大数据集的一部分。

探索(explore):为了更好地理解数据集,在此步中搜索未预料的趋势和异常。

修正(modify):创建、选择和转换变量,以便专注于模型构建过程。

建模(model):搜索多种模型的组合,以便预测一个满意的结果。

评估(assess):根据实用性和可靠性对数据挖掘过程的结果进行评估。

相关文章

热门文章

最新文章