2017年ACL的四个NLP深度学习趋势 (一):语言结构和词汇嵌入(Linguistic Structure and Word Embeddings)

简介: 作者通过分析2017年ACL的论文,以及演讲内容,得出了四个NLP深度学习趋势:Linguistic Structure 、 Word Embeddings、Interpretability 、Attention。今天我们就逐一分析一下这四个深度学习趋势。

更多深度文章,请关注:https://yq.aliyun.com/cloud


介绍

在本月初我在温哥华出席的ACL(国际计算语言学协会 (ACL,The Association for Computational Linguistics) )时Joakim Nivre宣布:“NLP正在蓬勃发展”。参加人数众多的人士认为,学术界对NLP的兴趣已经处于历史最高点,主要是因为深度学习的成功。

然而,我参加ACL时注意到的一个研究人员的焦虑,因为一个领域正在快速发展转型。研究人员对是否将旧的NLP算法遗留下来还是抛弃,他们产生了焦虑!神经网络是我们需要的唯一技术吗?我们如何做好科学,论文发表在arXiv上算是真的成功吗?

b283e757929be534ff5653d4378ce2f0828ddb5b

虽然这些问题在ACL上不时出现,但研究人员整体的状态仍然是积极的。在2017年的ACLNLP社区继续热情地接受深度学习。在这篇文章中,我将就NLP研究发展的趋势发表自己的看法。

关于这篇文章

在接下来的两篇文章中,我会阐述在会议(及其共同的活动)中,我通过论文,演讲和讨论上观察到的四个NLP的研究趋势。它主要集中在深度学习,序列模型,序列到序列框架。第一部分将探讨两个相互关联的趋势:语言结构词语表达

趋势1:语言结构回归(Linguistic Structure

最近深度学习的复兴已经强调了NLP的简单统一范式:语句只是单词序列(language is just sequences of words)。根据这个逻辑,任何更深的网络结构都是不必要的,只需训练一个RNN的 end-to-end,随机梯度下降就能找出答案!虽然这种方法已经迅速地获得了巨大的成功,但其局限性正变得越来越明显。在2017年的ACL,几位著名研究人员反对“语句只是单词序列”的逻辑,并提出了理论,既实用又有原则。那么为什么NLP应该重新回到语言结构呢?

原因1:减少搜索空间

米雷拉·拉帕拉(Mirella Lapata)质疑了RNN序列到序列框架的霸权地位。在她非常有趣的主题演讲中,认为所有的语言特征都应该被丢弃。相反,她得出结论:语言结构正在归来,并通过示例提供了一个例子来解释。她认为语言结构可以减少输出的搜索空间,从而更容易地生成良好的输出。

例如,代码生成涉及“生成前10个平方数的列表”的自然语言语句映射到相应的代码片段,例如Python中的“[x ** 2 for x in range(10)]”。已经尝试使用标准序列到序列方法完成这个任务,该方法将代码简单地称为标记序列,而不是其底层树结构。这使得生成任务在所有标记序列的整个输出空间上是无约束的搜索。搜索任务容易产生不正确的输出(例如,解码器可能生成不匹配括号的代码)。在ACL论文中,Yin和NeubigRabinovich等人 采取结构化预测方法,直接生成底层的抽象语法树。这种方法将搜索空间限制在格局良好的底层树上,消除了不合格的输出。

语言结构不仅对于具有代码生成和语义解析等高度形式化的输出任务具有明显的帮助,而且它也可以帮助减少不太明显的任务的搜索空间,如cloze式阅读理解。XieXing构造了一个只探索这些节点的系统,他们认为这比浏览文档中探索所有可能的节点要容易得多。

原因2:语言支架(Linguistic scaffolding

8a2ea92f03f453710ffea3de3d097360a1065ef0
 
 

诺亚史密斯在主旨演讲中反对他所谓的“全南瓜饮食”——线性变换+挤压函数(又称神经网络)作为NLP的唯一模型。相反,他鼓励大家思考NLP模型的归纳偏差即模型的基本假设,以及这些假设如何影响他们学习的内容。

史密斯特别强调了多任务学习的力量,并将它视为引入理想的归纳偏差的一种方法。ACL看到几篇论文成功地采用了这种方法,特别是Eriguchi等人吴等人为NMT设计了新的混合解码器,它使用shift-reduce算法来同时生成和解析目标序列。

NMT +解析系统的联合,似乎优于序列顺序系统,也可能受益于减少搜索空间。对于长句子,NMT性能不佳,联合解析输出可以消除来自搜索质量差的输出,从而允许搜索在更好质量的候选者之间进行选择。

原因3:句法近因>连续近因

克里斯·戴尔(Chris Dyer)认为,将语言结构纳入深度学习领域是非常重要的像诺亚·史密斯一样,他也要求注意顺序方法中固有的归纳偏差,他认为RNN对顺序回归具有归纳偏倚,而语法指导的层次结构(如递归NNRNNGS)对语法近似性具有归纳偏倚。戴尔认为语言本质上是层次性的,结论是句法近因是对顺序近因的一种优选的归纳偏差

在ACL中,有几篇文章指出,RNN明显无法捕获远程依赖关系,而是使用递归模型可以进行改进。例如,在用语法感知编码器和解码器进行改进的神经机器翻译中。他们发现使用递归编码器可以提高整体性能,对于较长的句子而言,改进的程度更大。

期待

虽然语言结构复苏,但仍有一些障碍,因为实施多任务学习是繁琐的。非顺序架构在GPU上更难以并行化(但是新的动态库提供更简单和更有效的实现方法)。结构化预测任务的监督学习可能会受到缺乏并行数据的阻碍。幸运的是,在2017年的ACL都Liang等人。Iyyer人 使用弱势监督通过语义解析来执行任务,注意它是无需访问分析本身。

趋势2:重新考虑Word嵌入(Word Embeddings

word嵌入是一种分布式的特征表述,向量的不同维度用来表征不同特征,不同维度上就代表着不同的语义。例如苹果和红旗都是红色的,苹果和香蕉都是水果。

今年题为“word嵌入”的论文数量从10个下降到了4个,尽管如此,词嵌入仍然是一项标准的技术。今年ACL的相关文章非常有趣,也许是因为词嵌入已经通过“炒作”阶段进入了“审查”阶段。这些论文探讨了词嵌入成功与失败的界限,它做什么,以及如何改善自己的弱点。

更好地理解单词嵌入

令人惊讶(但经常被夸大)的词嵌入的成功是他们的添加组合结构,令人难以置信的Skip-Gram-Zipf + Uniform = Vector Additivity旨在解释这一成功。作者证明了,用跳过式模型训练的分布词嵌入,在某些假设下具有可加性。最显着的是这些词是均匀分布的,虽然训练语料库不是均匀分布的,但是这个结果可能会解释词嵌入为什么具有的可加性。

其他论文研究了假设在词嵌入上的局限性。Li和Gauthier研究的问题:是否为现实世界准备了分配代理?他们发现在词嵌入捕获某些概念特征,它们并不倾向于捕获感性特征。该论文尽可能的呼唤基础学习,正如通过建立机器人语言接地新研讨会所证明的那样。

词嵌入的另一个更明显的问题是它们不考虑多义词,而是分配每个表面形式一个向量。Upadhyay et al(论文),利用多语言并行数据来学习多义词单词嵌入,例如,将英文单词翻译成法语单词bancbanque都是银行多义词的证据。在多模态词分布中Athiwaratkun和Wilson没有用单向量表示单词,而是用它表示具有多种模式的高斯概率分布,从而捕捉到不确定性和多义词。

2f7ff5414b83ddbe62a433a046961841c2bfcaba

去分词

标准的词嵌入最难解决的限制是对形态信息盲目性。因为在处理这样的问题时,总是将每个表面形式作为一个单独的匿名单元来处理。这可能会导致诸如无法识别两个词(例如走路者和步行者)具有相同的引理(步行)的问题。这是最近从词嵌入转向字表示的主要原因。

作为潜在的新标准CNN出现有人质疑它是依靠形态学解决的?今年的ACL至少有两篇论文表达了的否定态度。Vania和Lopez比较了几个子词组合表示的语言建模性能,发现它们中没有一个表现的能够与获得形态学注释的模型一样。即使提供原始输入模型进行多次的训练,这一结果仍然保持不错的性能。

05286aafd1dc030dd8e78238343c2d2bea660394

这些结果表明,如果我们想要真正有形态意识的词汇表示,我们可能需要一个更明确的形态模型,而不仅仅是字符组成。在他们的变形论文中,Vulić通过使用非语言学家编写的一些非常简单的形态规则来微调词嵌入。同时,Cotterell和Schütze提出了一个更全面的形态学模型,共同学习一个可以将一个单词划分成其形态组分的系统(例如,questionablyquestion+ able+ ly)。我认为这是一个非常有价值的方法,因为任何形态理解系统都必须能够构成和分解意义。虽然该模型在评估任务上表现良好,但我想了解的是如何轻松地将其转移到诸如句法解析或语言建模等外部任务中。

4d6a38ea0d11690441d22dc13c0709e27ce05ecc

期待

词语是语言的基础,所以当我们选择如何建模语言时,我们的假设是重要的。尽管分布式语义对我们来说已经很好,但是这些语言不仅仅是它们出现的语境。在未来的几年中,我认为我们将会看到更多的基础,视觉和互动语言学习来补充分布式表示。

2017年ACL的四个NLP深度学习趋势 (二):可解释性和注意力(Interpretability and Attention)

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

文章原标题《machine-learning-vs-statistics》,

作者:abigail Chris Manning教授的博士生

个人网站:http://www.abigailsee.com

译者:袁虎 审阅:主题曲哥哥

文章为简译,更为详细的内容,请查看原文

相关文章
|
22天前
|
自然语言处理 索引
大模型开发: 解释自然语言处理(NLP)中的词嵌入。
**词嵌入技术在NLP中将文本转为数值表示,捕获词汇的语义和语法关系。过程包括:词汇索引、训练嵌入矩阵(如Word2Vec、GloVe、BERT)、文本向量化及向量输入到NLP模型(如情感分析、命名实体识别)。词嵌入是连接文本与机器理解的关键桥梁。**
21 2
|
1月前
|
机器学习/深度学习 自然语言处理 监控
利用深度学习技术实现自然语言处理中的情感分析
本文将深入探讨如何利用深度学习技术,特别是神经网络模型,来实现自然语言处理领域中的情感分析任务。通过结合深度学习算法和大规模文本数据集,可以实现更准确和高效的情感分析,为情感识别和情感推断提供更好的解决方案。
|
3月前
|
机器学习/深度学习 自然语言处理 数据可视化
NLP:预测新闻类别 - 自然语言处理中嵌入技术
NLP:预测新闻类别 - 自然语言处理中嵌入技术
60 0
|
3月前
|
机器学习/深度学习 自然语言处理 TensorFlow
在Python中进行自然语言处理(NLP)的深度学习
在Python中进行自然语言处理(NLP)的深度学习
33 3
|
9天前
|
人工智能 自然语言处理
自然语言处理:电脑如何理解我们的语言?
自然语言处理:电脑如何理解我们的语言?
20 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与挑战
【2月更文挑战第10天】 随着人工智能技术的不断发展,深度学习在自然语言处理领域的应用日益广泛。本文将探讨深度学习在自然语言处理中的重要性、现状和未来挑战,以及我个人对于该领域的一些思考和见解。
17 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与挑战
【2月更文挑战第4天】随着人工智能技术的不断发展,深度学习在自然语言处理领域扮演着越来越重要的角色。本文将探讨深度学习在自然语言处理中的应用现状及面临的挑战,从技术角度分析其发展趋势和解决方向。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用
【2月更文挑战第3天】随着人工智能技术的不断发展,自然语言处理成为了人工智能领域中的一个重要分支。深度学习作为一种有效的机器学习方法,在自然语言处理领域中也有着广泛的应用。本文将从深度学习在自然语言处理中的应用出发,探讨深度学习技术在自然语言处理中的优势和挑战,并介绍一些常见的深度学习模型及其应用。
19 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习技术在自然语言处理中的应用与思考
【2月更文挑战第3天】 传统的自然语言处理技术在处理复杂语义和语法问题时存在诸多限制,而深度学习技术的崛起为解决这一难题提供了新的可能性。本文将探讨深度学习技术在自然语言处理领域的应用现状及未来发展趋势,以及对技术发展的思考和展望。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与挑战
【2月更文挑战第3天】 自然语言处理(NLP)是人工智能领域的热门研究方向,而深度学习技术的迅猛发展为NLP的发展带来了新的机遇和挑战。本文将探讨深度学习在自然语言处理中的应用现状,分析技术发展趋势,并就其中的挑战进行讨论,旨在为读者提供对NLP领域的深入了解和思考。