《中国人工智能学会通讯》——12.27 问题描述

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.27节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.27 问题描述

基于众包的空间文本数据提纯任务:给出需要质量优化的一个空间文本数据集合 T={t 1 , t 2 ,…,t |T| },众包平台将这些数据发布作为任务,一个任务对应一个空间文本数据。每个任务 t={O t , L t } 由一个拥有地理位置的空间兴趣点 O t 和一个文本描述关键词集合 L t ={l t,1 , l t,2 ,…, l t,|L t | } 构成。每个关键词 l t,i都有一个真实结果 1/0 ( 是 / 否 ),其中 1 (0) 是指 l t,i是该数据的一个合理正确 ( 不正确 ) 的关键词。每个参与任务的众包工人w也有一个位置 (如家、工作位置等 )。对每个任务 t,工人需从 L t 中选择他们认为正确的关键词。将工人给出的判断答案记 为 R={(w,t,R(w,t))}, 其 中 R(w,t) = {r w,t,k |1 ≤k ≤ |L t |} 是 w 对任务 t 的答案集合,且 r w,t,k =1/0是 w 对每一关键词 l t,k 的答案。图 1 展示了一个与“Beijing Olympic Forest Park”(“北京奥林匹克公园”) 这一兴趣点相关的任务。在这 10 个关键词中,如果工人 w 认为“1.Park”是一个正确的关键词,那么他可以勾选选择框中的对应关键词,即认为他给出答案 r w,t,1 =1;否则认为 r w,t,1 =0。 显然,工人的答案不可能 100% 正确 , 可能出现判断错误,甚至多个工人会给出有分歧的答案。因此需要根据工人对任务的答案,推断任务关键词的真实结果,即推断任务中真正的正确关键词。基于众包的提纯任务以为所有数据筛选出正确的关键词作为目标,采用正确率来衡量筛选的结果优劣。正确率的计算方法为每个任务正确推断的关键词数量占关键词总数的百分比的平均值。

问题定义:为了获得高准确率的结果,结合众包任务执行框架,有两个需要考虑的子问题。① 正确关键词的推断问题。根据工人的回答 R,如何为每个任务推断出其中正确的关键词 ? ② 任务分配问题。当一群需要分配任务的工人 W 在请求任务时,如何为每个工人合理分配对应的 h 个任务 ? 由于无法预支未来请求任务的工人情况,因此必定无法给出一次性优化整体准确率的算法。这里采用另一种策略,对每次请求的工人集合 W,最大化地提升准确率值。由此一步一步地优化,当付给工人的预算全部花完后,达到一个较优的准确率。因此第二个问题是每次当工人请求任务时,寻找一个最优分配以最大幅度的提高总推断准确率。

为解决推断问题,在下一章节中提出了一个推断模型,并根据推断模型在第四章中提出了有效的任务分配方法。下面详细介绍推断模型与分配方法。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
462 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1540 0
与世界同行 2017中国人工智能大会有感
|
人工智能 自动驾驶
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章
|
人工智能 芯片
中国人工智能计划,我来说几句
中国人工智能计划,我来说几句
|
机器学习/深度学习 人工智能 自然语言处理
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。
1564 0
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
|
数据采集 人工智能 智能设计
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
631 0
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
|
机器学习/深度学习 人工智能 监控
中国95后流行色是什么?人工智能给出的答案是它
中国 95 后的流行色是什么?人工智能说是 RGB 值为 22/20/24 的「黑色」。
507 0
中国95后流行色是什么?人工智能给出的答案是它
|
机器学习/深度学习 人工智能 自然语言处理
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
机器之心和 Comet Labs 联合发布了影响全球人工智能公司的榜单。我们选取了基础研究、技术和产品、行业潜力、公司运营能力、资本实力等五个维度,甄选出了全球范围内最具前途的 100 家人工智能公司,它们包括那些我们已经熟知的科技巨头,垂直行业独角兽,也有尚在萌芽的初创公司。 当然,这份榜单肯定没有做到尽善尽美,也存在 100 家的名额限制,但我们坚信,这份基于我们诚意、内容经验和专业判断的不存在任何商业利益的榜单可以为大家总结和精炼出一些有价值的信息,带给大家灵感和启发。
439 0
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
|
机器学习/深度学习 人工智能 自然语言处理
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国

热门文章

最新文章