paperweekly 关注
手机版

论文解读 | 基于神经网络的知识推理

  1. 云栖社区>
  2. paperweekly>
  3. 博客>
  4. 正文

论文解读 | 基于神经网络的知识推理

技术小能手 2018-03-08 15:24:38 浏览17202 评论0

摘要: 论文动机 使用神经网络进行更为复杂的推理以增加 KB 中的条目正在引起广泛关注,这么做的一个重要原因是为了同时支持 look-up 类型的问答系统以及从 entity 和 relation 中间接推理到答案的问答系统。

论文动机

使用神经网络进行更为复杂的推理以增加 KB 中的条目正在引起广泛关注,这么做的一个重要原因是为了同时支持 look-up 类型的问答系统以及从 entity 和 relation 中间接推理到答案的问答系统

KB 通常是非常不完整的,推理可以完善那些缺失的信息。见下图:

38a7acd0fd5535c1865fe0bc46a929aaedab3330

已有的方法大多是基于 symbolic 和 logical 的推理系统,比如 Universal Schema,它学习 relation type 的向量表示,包括结构化 KB 中的以及自然语言文本中的关系表示,其中的 matrix completion 机制可以进行简单的推理,但只能对单条 evidence 进行操作,比如从 microsoft-located-in-seattle 推理出 microsoft-HQ-in-seattle。

更高级的推理是从从句中得到包含三个或更多实体的 multi-hop 的知识库图路径。比如可以从 Melinda–spouse–Bill–chairman–Microsoft–HQ-in–Seattle 得到 Melinda–lives-in–Seattle。

这种推理通常用 path ranking algorithm 进行。RNN 沿着任意长度的路径组成了每条边关系的 embeddings,输出一个表示路径两端实体之间关系的向量表示。但是这些方法只能用于小型或人造数据库上,并且对于许多情况下来说还是不准确不实际。 

本文提出的方法则可以对大型的多语义 KB 进行推理,本文对基于 RNN 的从大规模 KB 中进行推理进行了精度和可操作性的改善:

  • 之前的工作只推理了 relation,没有推理组成路径上节点的 entities,本文对关系类型,实体和实体类型进行了联合学习和推理。
  • 本文使用了 neural attention 机制对多条路径进行推理。
  • 之前的方法最大的问题是要为每一个需要预测的 relation-type 单独训练模型。而本文只训练一个 RNN 来预测所有的 relation type。另外,由于训练的 multi-task 特性,共享了 RNN 参数,精度也显著提高了。

模型介绍

本文首先介绍了基本的 Path-RNN 的架构,本文的一切改进都是基于该模型的

Path-RNN 的输入是两个实体之间的路径,输出推理出的二者之间的新关系。通过将关系之间的连接用 RNN 表示来进行推理。路径的表示是在处理完路径中所有的关系之后由 RNN 的最后的隐状态给出的。 

c768776296dfa7333d05a6396abebd4e15ee481f

架构如图所示,对每一条可能的路径用一个 RNN 来表示,将改路径每一个节点上的 entity 和连接的 relation 进行向量化后输入一个 RNN 单元,整条路径的最终向量表示就是 RNN 最后一个单元输出的 Hidden state,将改路径的向量表示和要预测的关系的向量表示求相似度,相似度最高的就是目标路径。

这个模型的缺点是每一个 relation type 都要训练一个新的模型,变量无法共享,数量巨大。另外只选择相似度最高的那一个路径可能会忽略掉其他路径所隐含的信息,还造成了计算浪费。

本文对这个模型做出的改进有:

  • 本文共享了 relation type 的表示以及 RNN 的 composition matrices,这样同样的训练数据变量就大大减少了。训练模型的损失函数用的是 negative log-likelihood。
  • 分别用 Top-k,average 和 LogSumExp 方法为每一条路径的相似度评分加上权重,这样就考虑了每一条路径包含的信息,而不仅仅是评分最高的那条。
实验结果
本文在一个大型的 freebase 实体和关系数据集以及 clueweb 文本数据集上做了验证。

和先前最好的结果相比,本文在 MAP 上提高了 25%。另外本文还单独设计了一个验证来验证在同一个 RNN 中共享 strength 的效果,结果证明在训练过程中一些出现频率较小的关系也提高了 54% 的精度。

本文还在另一个数据集上做了验证:chains of resoning in WordNet。和目前最好的结果相比,在平均分位数上的错误率减少了 84%。

63c01457fe75aa69a80b601610a3189c47388351

文章评价

本文提出的模型使用单个 RNN 就可以在多种 relation types 之间进行推理。并且利用了多条可能路径以及路径间所有实体和关系的综合信息,这些信息在之前的方法中都是忽略的,极大程度的提高了精度。但是由于数据的稀疏性,在处理较长的文本特征时性能就会减弱。


原文发布时间为:2018-03-8

本文作者:Britin

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

用云栖社区APP,舒服~

【云栖快讯】云栖社区技术交流群汇总,阿里巴巴技术专家及云栖社区专家等你加入互动,老铁,了解一下?  详情请点击

网友评论

技术小能手
文章3780篇 | 关注957
关注
GPU云服务器是基于GPU应用的计算服务,多适用于视频解码,图形渲染,深度学习,科学计算等应... 查看详情
帮助您基于阿里云构建出一个隔离的网络环境。您可以完全掌控自己的虚拟网络,如选择自有 IP 地... 查看详情
高速通道(ExpressConnect)是一款便捷高效的网络服务,用于在云上的不同网络环境间... 查看详情
为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效... 查看详情
阿里中间件云大使

阿里中间件云大使