2017年ACL的四个NLP深度学习趋势 (一):语言结构和词汇嵌入(Linguistic Structure and Word Embeddings)

本文涉及的产品
图片翻译,图片翻译 100张
全局流量管理 GTM,标准版 1个月
NLP 自学习平台,3个模型定制额度 1个月
简介: 作者通过分析2017年ACL的论文,以及演讲内容,得出了四个NLP深度学习趋势:Linguistic Structure 、 Word Embeddings、Interpretability 、Attention。今天我们就逐一分析一下这四个深度学习趋势。

更多深度文章,请关注:https://yq.aliyun.com/cloud


介绍

在本月初我在温哥华出席的ACL(国际计算语言学协会 (ACL,The Association for Computational Linguistics) )时Joakim Nivre宣布:“NLP正在蓬勃发展”。参加人数众多的人士认为,学术界对NLP的兴趣已经处于历史最高点,主要是因为深度学习的成功。

然而,我参加ACL时注意到的一个研究人员的焦虑,因为一个领域正在快速发展转型。研究人员对是否将旧的NLP算法遗留下来还是抛弃,他们产生了焦虑!神经网络是我们需要的唯一技术吗?我们如何做好科学,论文发表在arXiv上算是真的成功吗?

b283e757929be534ff5653d4378ce2f0828ddb5b

虽然这些问题在ACL上不时出现,但研究人员整体的状态仍然是积极的。在2017年的ACLNLP社区继续热情地接受深度学习。在这篇文章中,我将就NLP研究发展的趋势发表自己的看法。

关于这篇文章

在接下来的两篇文章中,我会阐述在会议(及其共同的活动)中,我通过论文,演讲和讨论上观察到的四个NLP的研究趋势。它主要集中在深度学习,序列模型,序列到序列框架。第一部分将探讨两个相互关联的趋势:语言结构词语表达

趋势1:语言结构回归(Linguistic Structure

最近深度学习的复兴已经强调了NLP的简单统一范式:语句只是单词序列(language is just sequences of words)。根据这个逻辑,任何更深的网络结构都是不必要的,只需训练一个RNN的 end-to-end,随机梯度下降就能找出答案!虽然这种方法已经迅速地获得了巨大的成功,但其局限性正变得越来越明显。在2017年的ACL,几位著名研究人员反对“语句只是单词序列”的逻辑,并提出了理论,既实用又有原则。那么为什么NLP应该重新回到语言结构呢?

原因1:减少搜索空间

米雷拉·拉帕拉(Mirella Lapata)质疑了RNN序列到序列框架的霸权地位。在她非常有趣的主题演讲中,认为所有的语言特征都应该被丢弃。相反,她得出结论:语言结构正在归来,并通过示例提供了一个例子来解释。她认为语言结构可以减少输出的搜索空间,从而更容易地生成良好的输出。

例如,代码生成涉及“生成前10个平方数的列表”的自然语言语句映射到相应的代码片段,例如Python中的“[x ** 2 for x in range(10)]”。已经尝试使用标准序列到序列方法完成这个任务,该方法将代码简单地称为标记序列,而不是其底层树结构。这使得生成任务在所有标记序列的整个输出空间上是无约束的搜索。搜索任务容易产生不正确的输出(例如,解码器可能生成不匹配括号的代码)。在ACL论文中,Yin和NeubigRabinovich等人 采取结构化预测方法,直接生成底层的抽象语法树。这种方法将搜索空间限制在格局良好的底层树上,消除了不合格的输出。

语言结构不仅对于具有代码生成和语义解析等高度形式化的输出任务具有明显的帮助,而且它也可以帮助减少不太明显的任务的搜索空间,如cloze式阅读理解。XieXing构造了一个只探索这些节点的系统,他们认为这比浏览文档中探索所有可能的节点要容易得多。

原因2:语言支架(Linguistic scaffolding

8a2ea92f03f453710ffea3de3d097360a1065ef0
 
 

诺亚史密斯在主旨演讲中反对他所谓的“全南瓜饮食”——线性变换+挤压函数(又称神经网络)作为NLP的唯一模型。相反,他鼓励大家思考NLP模型的归纳偏差即模型的基本假设,以及这些假设如何影响他们学习的内容。

史密斯特别强调了多任务学习的力量,并将它视为引入理想的归纳偏差的一种方法。ACL看到几篇论文成功地采用了这种方法,特别是Eriguchi等人吴等人为NMT设计了新的混合解码器,它使用shift-reduce算法来同时生成和解析目标序列。

NMT +解析系统的联合,似乎优于序列顺序系统,也可能受益于减少搜索空间。对于长句子,NMT性能不佳,联合解析输出可以消除来自搜索质量差的输出,从而允许搜索在更好质量的候选者之间进行选择。

原因3:句法近因>连续近因

克里斯·戴尔(Chris Dyer)认为,将语言结构纳入深度学习领域是非常重要的像诺亚·史密斯一样,他也要求注意顺序方法中固有的归纳偏差,他认为RNN对顺序回归具有归纳偏倚,而语法指导的层次结构(如递归NNRNNGS)对语法近似性具有归纳偏倚。戴尔认为语言本质上是层次性的,结论是句法近因是对顺序近因的一种优选的归纳偏差

在ACL中,有几篇文章指出,RNN明显无法捕获远程依赖关系,而是使用递归模型可以进行改进。例如,在用语法感知编码器和解码器进行改进的神经机器翻译中。他们发现使用递归编码器可以提高整体性能,对于较长的句子而言,改进的程度更大。

期待

虽然语言结构复苏,但仍有一些障碍,因为实施多任务学习是繁琐的。非顺序架构在GPU上更难以并行化(但是新的动态库提供更简单和更有效的实现方法)。结构化预测任务的监督学习可能会受到缺乏并行数据的阻碍。幸运的是,在2017年的ACL都Liang等人。Iyyer人 使用弱势监督通过语义解析来执行任务,注意它是无需访问分析本身。

趋势2:重新考虑Word嵌入(Word Embeddings

word嵌入是一种分布式的特征表述,向量的不同维度用来表征不同特征,不同维度上就代表着不同的语义。例如苹果和红旗都是红色的,苹果和香蕉都是水果。

今年题为“word嵌入”的论文数量从10个下降到了4个,尽管如此,词嵌入仍然是一项标准的技术。今年ACL的相关文章非常有趣,也许是因为词嵌入已经通过“炒作”阶段进入了“审查”阶段。这些论文探讨了词嵌入成功与失败的界限,它做什么,以及如何改善自己的弱点。

更好地理解单词嵌入

令人惊讶(但经常被夸大)的词嵌入的成功是他们的添加组合结构,令人难以置信的Skip-Gram-Zipf + Uniform = Vector Additivity旨在解释这一成功。作者证明了,用跳过式模型训练的分布词嵌入,在某些假设下具有可加性。最显着的是这些词是均匀分布的,虽然训练语料库不是均匀分布的,但是这个结果可能会解释词嵌入为什么具有的可加性。

其他论文研究了假设在词嵌入上的局限性。Li和Gauthier研究的问题:是否为现实世界准备了分配代理?他们发现在词嵌入捕获某些概念特征,它们并不倾向于捕获感性特征。该论文尽可能的呼唤基础学习,正如通过建立机器人语言接地新研讨会所证明的那样。

词嵌入的另一个更明显的问题是它们不考虑多义词,而是分配每个表面形式一个向量。Upadhyay et al(论文),利用多语言并行数据来学习多义词单词嵌入,例如,将英文单词翻译成法语单词bancbanque都是银行多义词的证据。在多模态词分布中Athiwaratkun和Wilson没有用单向量表示单词,而是用它表示具有多种模式的高斯概率分布,从而捕捉到不确定性和多义词。

2f7ff5414b83ddbe62a433a046961841c2bfcaba

去分词

标准的词嵌入最难解决的限制是对形态信息盲目性。因为在处理这样的问题时,总是将每个表面形式作为一个单独的匿名单元来处理。这可能会导致诸如无法识别两个词(例如走路者和步行者)具有相同的引理(步行)的问题。这是最近从词嵌入转向字表示的主要原因。

作为潜在的新标准CNN出现有人质疑它是依靠形态学解决的?今年的ACL至少有两篇论文表达了的否定态度。Vania和Lopez比较了几个子词组合表示的语言建模性能,发现它们中没有一个表现的能够与获得形态学注释的模型一样。即使提供原始输入模型进行多次的训练,这一结果仍然保持不错的性能。

05286aafd1dc030dd8e78238343c2d2bea660394

这些结果表明,如果我们想要真正有形态意识的词汇表示,我们可能需要一个更明确的形态模型,而不仅仅是字符组成。在他们的变形论文中,Vulić通过使用非语言学家编写的一些非常简单的形态规则来微调词嵌入。同时,Cotterell和Schütze提出了一个更全面的形态学模型,共同学习一个可以将一个单词划分成其形态组分的系统(例如,questionablyquestion+ able+ ly)。我认为这是一个非常有价值的方法,因为任何形态理解系统都必须能够构成和分解意义。虽然该模型在评估任务上表现良好,但我想了解的是如何轻松地将其转移到诸如句法解析或语言建模等外部任务中。

4d6a38ea0d11690441d22dc13c0709e27ce05ecc

期待

词语是语言的基础,所以当我们选择如何建模语言时,我们的假设是重要的。尽管分布式语义对我们来说已经很好,但是这些语言不仅仅是它们出现的语境。在未来的几年中,我认为我们将会看到更多的基础,视觉和互动语言学习来补充分布式表示。

2017年ACL的四个NLP深度学习趋势 (二):可解释性和注意力(Interpretability and Attention)

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

文章原标题《machine-learning-vs-statistics》,

作者:abigail Chris Manning教授的博士生

个人网站:http://www.abigailsee.com

译者:袁虎 审阅:主题曲哥哥

文章为简译,更为详细的内容,请查看原文

相关文章
自然语言处理的未来:让机器“听懂”人类语言的奥秘
1. 引言 在数字化浪潮中,自然语言处理(NLP)已经成为人工智能的核心技术之一。无论是智能助手、翻译应用,还是社交媒体的情感分析,NLP正以不可思议的速度改变我们的生活。根据市场研究,NLP的市场规模预计将在未来几年内快速增长,成为众多行业不可或缺的组成部分。本文将深入探讨NLP的基础知识、关键技术、实际应用以及未来的发展趋势,帮助你全面了解这一引人入胜的领域。
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
153 8
自然语言处理(NLP)是AI的重要分支,旨在让计算机理解人类语言
自然语言处理(NLP)是AI的重要分支,旨在让计算机理解人类语言。本文探讨了深度学习在NLP中的应用,包括其基本任务、优势、常见模型及具体案例,如文本分类、情感分析等,并讨论了Python的相关工具和库,以及面临的挑战和未来趋势。
265 1
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(下)
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(下)
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(上)
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(上)
深度学习之人类水平的语言推理
基于深度学习的人类水平的语言推理,是当前自然语言处理(NLP)和人工智能领域的重要研究方向之一。语言推理的核心在于理解语言中蕴含的复杂语义和逻辑关系,并根据上下文进行推断。
88 3
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器
探索深度学习与自然语言处理(NLP)在智能客服系统中的创新应用
探索深度学习与自然语言处理(NLP)在智能客服系统中的创新应用
466 1
深度学习之蛋白质结构预测
基于深度学习的蛋白质结构预测是利用深度学习模型来预测蛋白质的三维结构,这在生物学和药物研发领域具有重要意义。
211 4

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等