中国人工智能学会通讯——一种基于众包的交互式数据修复方法 2 前期工作和问题陈述

简介:

2 前期工作和问题陈述

2.1 基于规则的修复方法

定义1一个集合被定义为正确集合当且仅当集合中所有的值均正确。如果这两个集合不可以同时都是正确集合,我们说这两个集合之间存在冲突(Conflict)。

基于规则的修复方法依赖预定义的质量规则检测数据之间的冲突,并希望通过
清洗引起冲突的错误达到解决这些冲突的目的。本文以FD/CFD为例来展示我们的方法是如何执行的。为了便于理解,给出一个运行示例。

例1如图1(a)所示,对于给定的一个个人联系方式数据表,每个元组不仅包含一个人的Name和Inst,还包含这个人的地址信息如City、State、Country和Zip。我们在表中标出了错误数据。图1(b)中显示的是一组约束条件(FD/CFDs)。

image

(1)冲突检测根据给定的FD/CFDs,表中的许多冲突数据可以被检测出来。例如,根据规则φ2,t1和t3的Inst(UQ)相同,但t1City和t3City不一致,所以这两个City的值是互相冲突的。图2(a)显示了根据约束条件找出的表1(a)中的26个冲突,图中每一个节点表示表中的一个属性值(错误的数据已被标出),两个节点间的连线表示这两个节点发生了冲突。

(2)冲突解决当属性值之间发生冲突时,为了解决冲突我们就需要修改一些值。为了解决数据库中所有的冲突,有些方法偏向于对数据集做尽量少的修改[2,4],有些方法倾向于用一些简单的预测模型做最有可能正确的修改[1,3]。例如图2(a)所示,因为t4Inst和其他三个值(UQ)都冲突,为了解决这三个冲突,我们可以把t4Inst改成UQ(代价是1),也可以把三个UQ改成QUT(代价是3)。这两种方法都倾向于选择第一种修改方案,实际情况中第一种修正是正确的。

但是在以下三种情况中,这些方法会做出错误的决定。

image
image
image

image

(3) 修复的置信度估计基于规则修复的准确率是由FD/CFD和推导中用到的值共同决定的。因此,一个修复的质量是由用于推导的值和使用的FD/CFD的置信度决定的,即

image

2.2 交互过程中的问题陈述

我们仍然使用FD/CFDs来发现数据之间的冲突,但在确认和修正这些冲突中的错误数据时,考虑将众包加入这个过程中,以达到在一个有效的交互方式下提高修复质量的目的。需要说明的是在本文中我们暂时忽略众包修复可能带来的错误修复,在未来工作中会再考虑这个问题。

最基本的交互过程描述如下:首先设置一个质量约束条件,并根据这一质量约束对那些冲突做基于规则的修复。然后选择一些值进行众包修复,使更多的值能够用被规则修复或推导。我们迭代地进行这种交互式修复,直至没有更多的值可以被修改为止。

image
image
image
image

相关文章
|
1月前
|
人工智能 安全 数据挖掘
Pandas AI:Pandas与人工智能的结合,让你不再拘泥于如何使用pandas方法及处理语法
Pandas AI:Pandas与人工智能的结合,让你不再拘泥于如何使用pandas方法及处理语法
|
3月前
|
人工智能 前端开发 测试技术
AI:探究下前端组件化设计的实现方法及其重要性(一)
AI:探究下前端组件化设计的实现方法及其重要性
|
3月前
|
人工智能 自然语言处理 语音技术
人工智能语音数据的多样性
人工智能语音数据的多样性
24 2
|
3月前
|
人工智能 缓存 前端开发
AI:探究下前端组件化设计的实现方法及其重要性(二)
AI:探究下前端组件化设计的实现方法及其重要性
|
12天前
|
机器学习/深度学习 数据采集 人工智能
|
13天前
|
机器学习/深度学习 数据采集 人工智能
|
13天前
|
机器学习/深度学习 人工智能 算法
|
13天前
|
机器学习/深度学习 人工智能 算法
|
16天前
|
人工智能 分布式计算 Kubernetes
人工智能,应该如何测试?(三)数据构造与性能测试篇
本文探讨了人工智能场景中的性能测试,区别于传统互联网测试,其复杂性更高。主要关注点包括两类AI产品——业务类和平台类,后者涉及AI全生命周期,测试难度更大。测试重点是模型训练的性能,特别是数据模拟。需要构造大量结构化数据,如不同规模、分布、分片和特征规模的数据,以评估算法效率。此外,还涉及模拟设备规模(如视频流)和节点规模(边缘计算),以测试在大规模负载下的系统性能。文中提到了使用工具如Spark、ffmpeg、流媒体服务器和Kubernetes(K8S)的扩展项目,如Kubemark,来模拟大规模环境。最后,文章介绍了使用Golang进行异步IO操作以构建海量小文件,优化IO性能。
38 0
|
1月前
|
数据采集 机器学习/深度学习 人工智能
用人工智能和missForest构建完美预测模型,数据插补轻松驾驭
用人工智能和missForest构建完美预测模型,数据插补轻松驾驭
60 1