基于新标注模式的实体和关系联合抽取方法 | 每周一起读-阿里云开发者社区

基于新标注模式的实体和关系联合抽取方法 | 每周一起读

2017-08-01 3287

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

实体和关系的联合抽取问题作为信息抽取的关键任务，其实现方法可以简单分为两类：一类是串联抽取方法。另一类是联合抽取方法。

串联抽取方法将该问题分解为两个串联的子任务，即先采用实体识别模型抽取实体，再采用关系抽取模型得到实体对之间的关系，其优势是便于单独优化实体识别任务和关系抽取任务，但缺点是它们以获取三元组的中间产物（实体或者关系类型）为目标，而实体识别的结果会进一步影响关系抽取的结果，导致误差累积。

不同于串联抽取方法，联合抽取方法使用一个模型同时抽取实体及其关系，能够更好的整合实体及其关系之间的信息。但现有的联合抽取方法也存在诸多问题，比如：大部分的联合抽取模型需要人工参与构建特征；基于 end to end 的联合抽取模型，因在模型实现过程中分开抽取实体及其关系而导致信息冗余等问题。

本文提出了一个新的模型框架来解决此类问题，并在公开数据集 NYT 上取得了很好的效果。

* 本文已被评为 ACL2017 Outstanding Paper

详细报道：

基于新标注模式的实体和关系联合抽取方法 | 论文访谈间 #07

阅读笔记精选

lizhili

为了解决目前关系抽取模型中的不足：1. 联合抽取实体以及关系的方法在进行特征抽取依赖 NLP 预处理工具可能带来的误差 2. 联合抽取模型抽取实体以及关系时虽然共享参数，实则还是采用简单模型各自进行抽取，实体识别工作会为关系抽取带来一定误差。

本文提出了一种端到端的基于序列标注的的方法进行关系抽取。本文主要贡献之处在于：1. 将联合抽取实体与关系抽取问题转换为序列标注问题 2. 采用端到端模型来解决序列标注问题 3. 使用了一个带有偏置损失函数（就是后文提到的目标函数）的端到端模型，用来增强相关的实体之间的联系。

在模型的具体实现部分：

标注策略：1. 与抽取无关的词语采用“O” 2. 标注分为三个部分：单词在实体中起始终止位置、关系类型、关系角色。其中，用“BIES”（Begin, Inside, End, Single）表示位置；“1”“2”表示词语属于第几个实体；另外，在这篇文章中仅考虑某一实体属于一个三元组的可能；对于在同一句子中出现的几个三元组中出现关系类型相同的情况，采用了就近处理的策略。

端到端模型：encodeing：输入词向量，Bi-LSTM，输出特征表示。decoding：输入：从 encoding 部分得到的每个词语的特征表示，前项的预测标注，前项的隐含层的向量表示。

实验部分：采用远程监督 CoType 的数据集；和 pipeline、端到端模型以及不同序列标注模型（LSTM-CRF\LSTM-LSTM）进行对比；并且测试了文章提出的 loss function 对于抽取结果的影响。文章将端到端的联合抽取方法转换为序列标注问题确实是一个很新颖的思路，并且模型还可抽取出实体类型未知的三元组；但是对于抽取出来的未知的三元组认为是抽取错误，还是值得改进的地方。

rogerafh

相对于传统的 piplined 训练模型，本文采用了联合学习的方式，将实体发现和关系抽取两个任务联合在一起，并通过将该任务转换为标签标注任务（个人理解）。结合我之前在知识表示学习的学习上来看，相对于远程监督方法，piplined 学习方法来说，联合学习可以减少前备任务（如关系抽取前的实体发现，融合文本的知识表示学习前的文本语义建模）所带来的训练误差和错误率，是现在融合多任务（多模型）的一个有效方法。

hanqichen

本文通过设计一套合理的标记模式，将信息抽取问题转化为一个序列标注问题。利用端到端的 encoder-decoder 框架，将实体抽取和关系抽取进行联合建模，一方面避免了 pipeline 方法带来的错误叠加，另一方面减少设计特征的人力工作。未来的工作主要在于目前只考虑一个实体属于一个三元组的情况，文中给出的解决方案是将输出层的 softmax 函数替换为一个多分类器。

Hinse

1. 本文提出一个端对端模型将实体发现任务和关系抽取任务转化为一个标注任务；

2. 设计 1 套标签并同时表示 2 个任务；

3. 模型 encoder + decoder ，输出层使用 softmax；

4. 目标函数区分 Other 和非 Other 分别计算 ML，通过预设权重让模型更注重非 Other 标签的准确率；

5. 我理解模型好处是两个任务共享了参数，可以得到有用信息。也减少了分开训练的错误积累；

6. 作者提到将来一个改进方向是把最后的 softmax 改成多分类器以实现多标签。这样就可以实现一个实体的多关系抽取。

karis

本文提出了一种基于端到端序列标注的实体关系联合抽取方法。在 encoder-decoder 框架下，采用 bi-lstm 作为 encoder，lstm 作为 decoder，对每个词标注上 BIEM+关系类型+实体的序号。

语料和测试语料采用另外一个远程监督实体关系联合抽取的标注数据，关系类型有 24个，训练集有 353k 个三元组，测试集有 3880 三元组。最后比较了 3 组 9 个模型的结果，总得来说，联合抽取比 pipelind 的方法好，然后序列标注联合抽取要比其他联合抽取方法好（然而目前实体关系抽取任务的 F1 值仍然不到 0.5）。

LeoZhao

本文使用（sequence tagging 任务的 4 个记号）x（所有的 relation_type，这是 predefined 的，非自然语言的）构成分类标签集合。文章使用的目标函数中，位置（用于标记实体）和关系类型对错误的影响是一致的。这个需要再看看具体的例子, 直觉上实体判断错误的代价要比关系类型判断错误的代价要大。通过 bi-lstm 来编码句子信息，通过 LSTM 来生成分类结果。目前需要观察的是，该结构在位置和关系类型上的判断的错误率是否有较大差异。可以期待可解释性的提高。

qichenglin

本文的方法处理步骤：

1. 提出一种新的标记模式将联合抽取任务转化成一个标记任务。

2. 基于标记模式学习不同的端到端模型来直接抽取命名实体和关系，不需要分开识别命名实体和关系。

本文的方法并非开放域的关系抽取，关系词是从预定义的关系集里抽取的。传统的方法是 pipelined manner：先抽取实体，然后再识别它们的关系。这种方法忽略了这两个子任务之间的关系，实体识别的结果影响着关系抽取的性能。传统的 pipelined manner 的缺点就是会导致错误累加。

kaharjan

In this paper propose novel tagging scheme that jointly extract entities and relations. In this way extraction problem transformed into tagging task. In this method there would be no error propagation problem and could model triplet directly so that there would be no redundant information. However, this method could not handle triplet overlapping problem.

nancy

提出了一种新的标签格式能够将联合抽取工作转向成一个标签问题。基于新的标签格式，使用 LSTM-LSTM-Bias 模型来直接抽取实体和它们的关系，而不用分开辨别哪些是实体哪些是关系。在文中，只考虑了一对实体属于一种关系。另，针对同一句子中出现多个相同类型关系的实体们，采用相邻原则来标注实体。

veraLzz

贡献：提出了新的标注模式去联合抽取实体和关系。

优点：1. 联合抽取可以减轻错误传播：实体抽取的错误影响到关系抽取。2. 也避免了分开抽取造成的信息冗余。

Future work：处理一个句子有多个 tuple，和一个实体在多个关系中出现的一对多的问题。

来源：paperweekly

原文链接