中国人工智能学会通讯——基于众包的数据清洗模型研究 2 基于众包的主动学习模型

简介:

2 基于众包的主动学习模型

本章根据不同的应用场合设计了两种不同的主动学习模型,对劣质数据进行清洗。

由于主动学习是以少量的有标记样本作为初始训练集来标记大量的无标记样本,因此,我们在无标记大量样本中进行信息评估,选出价值更高的一类样本利用众包平台进行人工标记。根据获得的人工标记是否加入初始训练集进行再次训练,我们将基于众包的主动学习模型分为直接主动学习模型和交互主动学习模型两种。我们将分别详细阐述在不同的模型中,如何解决具体的数据清洗问题。

2.1 直接主动学习模型

针对直接法我们的基本思想是只采用初始训练集来训练我们的学习模型,其模型见图1。该方法适用于一些初始训练集信息量就已经非常有效的情况,还有对精度要求非常高而使训练集的记录只能是正确记录的情况。

image

直接主动学习算法概述如下。

image
image
image
image
image
image

2.2 交互主动学习模型

交互主动学习模型是指将众包标记过的记录反馈到训练集,对学习组件进行重新训练。在众包准确率高和效率高的情况下这种方法能够在一定程度上提高学习组件的准确率。交互主动学习模型的模型如图2所示。

image

下面给出交互主动学习算法概述。

(1)学习模型的初始化。这一阶段和直接主动学习模型是一致的(1~2行)。

(2)选择待标记记录。对每个候选修复记录,每个分量分类器都给出其预测结果,最后根据各个分量分类器的判决结果选择信息价值最大的记录进行修复。这个阶段主要是利用候选修复记录在各个分量分类器中的不一致分数来排序,将不一致分数最高的n个记录作为待标记记录。本文通过三种方法来衡量不一致分数。这n个实例经过标记加入到训练集后可以最大程度加强学习模型分类的正确性(3~4行)。

(3)结果 反馈和学习模型重训练。在这个阶段,众包平台上的工人对学习模型挑选出来的待标记记录进行标记,收集众包平台的结果,通过优化算法得到已标记记录。学习模型重新训练,去除掉那些已经得到标记的记录,在剩下的记录产生待标记记录集合。由于阶段2中选择了价值最大的记录进行标记,因此在下次迭代中已标记记录加入到初始训练集中进行再训练后,学习模型的分类正确性将得到最大加强(5~8行)。

(4)循环训练。重复阶段1~3,直到已经达到一定准确率Q,则数据集的修复完成(9~10行)。

image
image

相关文章
|
27天前
|
机器学习/深度学习 人工智能 边缘计算
大模型:引领人工智能新纪元的引擎
大模型:引领人工智能新纪元的引擎
|
1月前
|
人工智能 安全 网络安全
欧盟《人工智能法案》对通用AI模型的监管要求
【2月更文挑战第24天】欧盟《人工智能法案》对通用AI模型的监管要求
76 1
欧盟《人工智能法案》对通用AI模型的监管要求
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与文本生成:基于Transformer的文本生成模型
人工智能与文本生成:基于Transformer的文本生成模型
102 0
|
2月前
|
机器学习/深度学习 人工智能 算法
基于机器视觉的害虫种类及计数检测研究-人工智能项目-附代码
基于机器视觉的害虫种类及计数检测研究-人工智能项目-附代码
41 0
|
2月前
|
机器学习/深度学习 人工智能 安全
中国信通院联合金橙果科技等十七家单位发起人工智能大模型安全基准测试
2024年2月20日下午,AIIA“SafetyAI Bench”(人工智能大模型安全基准测试)线上研讨会成功举办。来自中国信息通信研究院(以下简称“中国信通院”)、厦门大学、北京大学、北京交通大学、360、百度、蚂蚁集团、VIVO、西门​子、小鹏汽车、马上消费、浪潮科技、海信视像、交通银行、商汤科技、邮储银行、普华永道、科大讯飞、金橙果科技、万商天勤律所、中兴通讯、博特智能、开源网安、云天励飞等单位40余位科研机构专家及企业代表参加了本次会议。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型
2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型
|
3月前
|
SQL 存储 人工智能
探索语义解析技术和AI人工智能大模型的关系
探索语义解析技术和AI人工智能大模型的关系
71 1
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能基础——模型部分:模型介绍、模型训练和模型微调 !!
人工智能基础——模型部分:模型介绍、模型训练和模型微调 !!
152 0
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能大模型引领智能时代的革命
随着AI技术的飞速发展,人工智能大模型正成为推动社会进步和经济发展的重要力量,比如GPT-3、BERT和其他深度学习架构,正在开启一个全新的智能时代。在人机交互、计算范式和认知协作三个领域,大模型带来了深刻的变革。那么本文就来分享一下关于大模型如何提升人机交互的自然性和智能化程度,以及它们如何影响现有的计算模式并推动新一代计算技术的演进,并探讨这些变革对未来的意义。
37 1
人工智能大模型引领智能时代的革命
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理