《R语言数据挖掘》----1.12 数据集成

简介:

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.12节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.12 数据集成

数据集成将多个数据源中的数据合并,形成一个一致的数据存储。其常见的问题如下:
异构数据:这没有普遍的解决方案。

不同的定义(different definition):这是内在的,即相同的数据具有不同的定义,如不同的数据库模式。

时间一致性:这可以检查数据是否在相同的时间段收集。

旧数据:这指的是从旧系统留下的数据。

社会学因素:这限制了数据的收集。

处理上述问题也有一些方法:
实体识别问题:模式整合和目标匹配是棘手的,这称为实体识别问题。

冗余与相关性分析:有些冗余可以通关相关性分析来检测。给定两个属性,基于可用的数据,这样的分析可以测量一个属性影响另一个属性的强度。

元组重复:在元组级可以检测重复,从而可以检测属性之间的冗余。
数据值冲突的检测和分辨率:在不同的抽象级,属性可能不同,其中一个系统中的一个属性可能在不同的抽象级被记录。

相关文章