备案控制台

开发者社区

开发者社区华章出版社文章正文

《R语言数据挖掘》----1.12 数据集成

2017-05-02 1492

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章，第1.12节，作者［哈萨克斯坦］贝特·麦克哈贝尔（Bater Makhabel），李洪成许金炜段力辉译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.12　数据集成

数据集成将多个数据源中的数据合并，形成一个一致的数据存储。其常见的问题如下：
异构数据：这没有普遍的解决方案。

不同的定义（different definition）：这是内在的，即相同的数据具有不同的定义，如不同的数据库模式。

时间一致性：这可以检查数据是否在相同的时间段收集。

旧数据：这指的是从旧系统留下的数据。

社会学因素：这限制了数据的收集。

处理上述问题也有一些方法：
实体识别问题：模式整合和目标匹配是棘手的，这称为实体识别问题。

冗余与相关性分析：有些冗余可以通关相关性分析来检测。给定两个属性，基于可用的数据，这样的分析可以测量一个属性影响另一个属性的强度。

元组重复：在元组级可以检测重复，从而可以检测属性之间的冗余。
数据值冲突的检测和分辨率：在不同的抽象级，属性可能不同，其中一个系统中的一个属性可能在不同的抽象级被记录。

文章标签：

数据集成 Data Integration

数据挖掘

关键词：

数据挖掘r语言

r语言数据挖掘

数据挖掘语言

华章计算机

目录

相关文章

华章计算机

|

数据可视化大数据数据挖掘

《R语言数据挖掘：实用项目解析》——导读

华章计算机

1259 0 0

华章计算机

|

数据挖掘

《R语言数据挖掘：实用项目解析》——小结

华章计算机

1297 0 0

华章计算机

|

数据挖掘

《R语言数据挖掘：实用项目解析》——2.9　无参数方法

华章计算机

1594 0 0

华章计算机

|

数据挖掘

《R语言数据挖掘：实用项目解析》——2.8　假设检验

华章计算机

3015 0 0

华章计算机

|

安全数据挖掘

《R语言数据挖掘：实用项目解析》——2.7　列联表、二元统计及数据正态性检验

华章计算机

2690 0 0

华章计算机

|

数据挖掘

《R语言数据挖掘：实用项目解析》——2.6　变量分段

华章计算机

1398 0 0

华章计算机

|

数据挖掘

《R语言数据挖掘：实用项目解析》——2.5　解读分布

华章计算机

1702 0 0

华章计算机

|

新零售数据挖掘

《R语言数据挖掘：实用项目解析》——2.4　解读分布和变换

华章计算机

1698 0 0

华章计算机

|

数据挖掘

《R语言数据挖掘：实用项目解析》——2.3　多元分析

华章计算机

1263 0 0

华章计算机

|

数据挖掘

《R语言数据挖掘：实用项目解析》——2.2　二元分析

华章计算机

1841 0 0

华章出版社

热门文章

最新文章

探索数据挖掘中的特征选择算法

R语言聚类算法的应用实例

R语言处理DNA等位基因不平衡（一）

R语言中回归模型预测的不同类型置信区间应用比较分析

R语言：EM算法和高斯混合模型的实现

r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

R语言如何和何时使用glmnet岭回归

R语言中Gibbs抽样的Bayesian简单线性回归

R语言用Rshiny探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）

R语言实现：混合正态分布EM最大期望估计法

从零到精通：学习这些R语言必学包成为数据分析高手！

R语言读取大型NetCDF文件

R语言——AVOCADO“（异常植被变化检测）算法（1990-2015数据分析）监测森林干扰和再生（含GEE影像下载代码）

R语言Ternary包绘制三元图、RGB三色空间分布图的方法

R语言GD包地理探测器分析时报错、得不到结果等情况的解决方案

R语言raster包批量拼接、融合大量栅格图像

R语言raster包遍历多个文件夹并批量计算每一个文件夹下全部遥感影像的平均值

R语言raster包计算多个栅格图像平均值、标准差的方法

R语言GD包基于栅格图像实现地理探测器与连续参数的自动离散化

R语言geodetector包基于栅格图像实现地理探测器操作

相关课程

更多

高校精品课-北京理工大学-数据仓库与数据挖掘（下）

高校精品课-北京理工大学-数据仓库与数据挖掘（上）

大数据之R语言速成与实战

深入理解数据分析

数据挖掘入门与实践

数据分析训练营

相关电子书

更多

基于数加MaxCompute的极速全基因组数据分析

如何使用大数据计算服务 MaxCompute进行数据分析

基于MaxCompute平台进行机器学习并展示结果

相关实验场景

更多

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

倚天大数据电商数据分析快速实践

Lindorm AIGC：十分钟搞定智能问答 + 多模态检索

函数计算X RDS PostgreSQL，基于LLM大语言模型构建AI知识库

Github实时数据分析与可视化

使用内置公开数据集快速体验MaxCompute

下一篇

阿里云oss简介和使用流程