《中国人工智能学会通讯》——7.9 机器阅读理解评测数据集

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第7章,第7.9节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

7.9 机器阅读理解评测数据集

现阶段,和阅读理解相关的数据集主要有以下五个。

1 . MCTest

微 软 研 究 院 的 研 究 员 Richardson et al [1] 在2013 年的 EMNLP 上发布了一个数据集。在这个数据集中,所有的文档都是一些叙述性的故事。它考察的推理能力被限定于一个 7 岁儿童可以接受的范围内,包含有许多常识性的推理,这些推理既包含事实性的,也包含非事实性的。这个数据集包含有两部分,一个是 MC160,还有一个是 MC500,分别包含 160 篇和 500 篇文档。由于这个数据集较为接近我们真实的阅读理解场景,因而成为阅读理解相关研究者的首选评测数据集。

2 . bAbi

这个数据集是由 Facebook 人工智能实验室的研究人员提出[2] ,将问答系统中的任务按照回答方法分成了 20 种,比如单支撑句问题、方位问题等。20 个问题的分类和一些常用方法在这些问题上面的结果如图 2 所示。image
由于在这个数据集中,所有的问题和背景文档都是依靠规则自动生成的,因而数据量比较大(可以无限大)。但是由于包含的信息太少,主要是用来测试一些推理模型,如 memory Networks 或者神经图灵机。最新的工作[3]已经可以依靠规则系统,将这 20 类问题全部答对。

3 . CNN&Daily Mail

该数据集是 Google Deepmind 的研究人员在NIPS2015上提出的一个数据集[4] ,数据的构造非常巧妙。首先,作者在两个新闻语料上(CNN 和 Daily Mail)分别搜集了 11 万和 21.8 万篇新闻,每篇新闻都有一些总结句(文章标题或者新闻要点),然后作者将其中的每篇新闻看成一个背景文档,把总结句中的实体去掉,再把这个去掉实体的标题当成问题。如图 3 所示。

image
作者用这种自动的方法构造了一个海量的数据集,在这些问题中答案没有预先给出,但是都可以在原文中得到。这个数据集主要考察哪些答案是实体类型的问题,问题也都是陈述型的问句,因而是一种 cloze(完形填空)型的机器阅读理解任务。

4 . CBTest

这个数据集也是 Facebook 人工智能实验室的研究员在 ICLR2016 上发布的数据[5] ,主要根据儿童读物的文章构建。其中,每篇文章包含一个故事;每个故事采用人工的方式分为很多小部分;每个部分含有 21 句话,前 20 句话是被当成背景文档,第21 句话是问题,需要系统对其中缺少的实体或者名词进行补全。在答案中会事先给出 10 个候选,需要从这 10 个候选中找到正确的一项对空处进行填充。如图 4 所示。类似于 CNN&Daily Mail 数据集,由于这些问题大部分是实体的,所以也是 cloze(完形填空)型的机器阅读理解任务。image

5 . 公开评测

除 了 上 述 公 开 数 据 集 之 外,Cross LingualEvaluation Forum (CLEF) 1 从 2013 年开始每年举办“Entrance Exams(入学考试)”问答子任务。该评测数据从日本入学考试中选取,每篇文档都伴随有若干问题,每个问题有若干选项。但是由于考试的内容有限,所以数据集非常小。(2015 年时提供的训练集大小只有 19 篇文档、89 个问题。)

综上所述,目前各公开的数据集,由于其考察系统阅读理解能力侧重点的不同,因此所构造的数据集的方式、规模和形式也不尽相同。从已有研究成果来看,大部分方法目前主要侧重于系统对文本深层次的语义理解能力,因此,大部分机器阅读理解方法都集中于在 MCTest 数据集进行评测。在下面的章节中,本文也主要围绕 MCTest 数据集介绍已有的机器阅读理解方法。

相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
专栏介绍《机器智造:AI与实战学习》
专栏介绍《机器智造:AI与实战学习》
36 0
|
8月前
|
存储 机器学习/深度学习 人工智能
LangChain + Streamlit + Llama:将对话式AI引入本地机器
在过去的几个月里,大型语言模型(LLM)获得了极大的关注,引起了全球开发人员的兴趣。这些模型创造了令人兴奋的前景,特别是对于从事聊天机器人、个人助理和内容创作的开发人员而言。LLM带来的可能性引发了开发人员的热情 |人工智能 |NLP社区。
443 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框
像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框
110 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI再卷数学界,DSP新方法将机器证明成功率提高一倍
AI再卷数学界,DSP新方法将机器证明成功率提高一倍
131 0
|
11月前
|
机器学习/深度学习 人工智能 自动驾驶
上海人工智能实验室自动驾驶团队原作解读OpenLane:大规模真实场景3D车道线数据集
上海人工智能实验室自动驾驶团队原作解读OpenLane:大规模真实场景3D车道线数据集
176 0
|
11月前
|
机器学习/深度学习 人工智能 监控
CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集
CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集
115 0
|
11月前
|
机器学习/深度学习 存储 人工智能
人工智能,「抛弃」真实数据集?
人工智能,「抛弃」真实数据集?
|
人工智能 算法 测试技术
人工智能:工业检测方向开源数据集资源汇总
人工智能:工业检测方向开源数据集资源汇总
93 0
人工智能:工业检测方向开源数据集资源汇总
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
463 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
人工智能 大数据 新制造
谈谈大数据和人工智能的9个应用场景【人与机器共生】
大数据时代,以数据为基础的技术正在改变人类的未来。
谈谈大数据和人工智能的9个应用场景【人与机器共生】

热门文章

最新文章