Neural Machine Translation by Jointly Learning to Align and....

简介:

前面的两篇文章简单介绍了seq2seq在机器翻译领域的尝试,效果令人满意。上一篇也介绍到这一类问题可以归纳为求解P(output|context)的问题,不同的地方在于context的构建思路不同,上两篇中的seq2seq将context定义为encoder的last hidden state,即认为rnn将整个input部分的信息都保存在了last hidden state中。而事实上,rnn是一个有偏的模型,越靠后的单词在last state中占据的“比例”越高,所以这样的context并不是一个非常好的办法,本文将分享的文章来解决这个问题。题目是Neural Machine Translation by Jointly Learning to Align and Translate,作者是来自德国雅各布大学的Dzmitry Bahdanau,现在是Yoshua Bengio组的一个博士生,文章于2015年4月放在arxiv上。


本篇不再讨论seq2seq,如果您想了解seq2seq,可以去看Sequence to Sequence Learning with Neural Networks和Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation两篇博客。本篇只讨论不同的地方。


本文用encoder所有hidden state的加权平均来表示context,权重表示decoder中各state与encoder各state的相关性,简单的seq2seq认为decoder中每一个state都与input的全部信息(用last state表示)有关,而本文则认为只与相关的state有关系,即在decoder部分中,模型只将注意力放在了相关的部分,对其他部分注意很少,这一点与人类的行为很像,当人看到一段话或者一幅图的时候,往往会将注意力放在一个很小的局部,而不是全部。具体看下图:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


decoder中预测每个输出的条件概率变为:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

这里每个time step的state变为:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

这里,context vector由下式计算:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

权重用了一个最简单的mlp来计算,


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

然后做归一化:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


这里的权重反应了decoder中的state s(i-1)和encoder中的state h(j)之间的相关性。本文在为了得到相对来说无偏的state,在encoder部分采用了BiRNN。


在机器翻译领域中,attention model可以理解为source和target words的soft alignment,像下图一样:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


上图是英语翻译成法语的一个结果。越亮的地方表示source和target中的words相关性越强(或者说对齐地越准),图中的每一个点的亮度就是前面计算出的权重。


本文最大的贡献在于提出了attention model,为今后研究对话生成,问答系统,自动文摘等任务打下了坚实的基础。context的定义也成为了一个非常有意思的研究点,rnn是一种思路,cnn同样也是一种思路,简单的word embedding也可以算是一种思路,交叉起来rnn+cnn也可以作为一种思路,将word替换成char可以作为一种思路,思路其实非常多,不同的组合有不同的模型,都可以去探索。


另外,不知道是不是Yoshua Bengio组的习惯,本文也在附录附上了详细的模型推导过程。



来源:paperweekly


原文链接

相关文章
|
7月前
|
机器学习/深度学习 人工智能 算法
The 10 Algorithms Machine Learning Engineers Need to Know
The 10 Algorithms Machine Learning Engineers Need to Know
|
8月前
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
75 0
|
11月前
|
机器学习/深度学习 算法 数据挖掘
A Generative Adversarial Network-based Deep Learning Method for Low-quality Defect ImageReconstructi
本文提出了一种基于生成对抗网络 (GAN) 的 DL 方法,用于低质量缺陷图像识别。 GAN用于重建低质量缺陷图像,并建立VGG16网络识别重建图像。
98 0
《Understanding,generalisation,and transfer learning in deep neural networks》电子版地址
Understanding,generalisation,and transfer learning in deep neural networks
61 0
《Understanding,generalisation,and transfer learning in deep neural networks》电子版地址
《Spiking Neural Networks,the Next Generation of Machine Learning》电子版地址
Spiking Neural Networks,the Next Generation of Machine Learning
50 0
《Spiking Neural Networks,the Next Generation of Machine Learning》电子版地址
《NATURAL LANGUAGE UNDERSTANDING WITH MACHINE ANNOTATORS & DEEP LEARNED ONTOLOGIES AT SCALE》电子版地址
NATURAL LANGUAGE UNDERSTANDING WITH MACHINE ANNOTATORS & DEEP LEARNED ONTOLOGIES AT SCALE
71 0
《NATURAL LANGUAGE UNDERSTANDING WITH MACHINE ANNOTATORS & DEEP LEARNED ONTOLOGIES AT SCALE》电子版地址
《The 8 Neural Network Architectures Machine Learning Resarchers Need to Learn》电子版地址
The 8 Neural Network Architectures Machine Learning Resarchers Need to Learn
58 0
《The 8 Neural Network Architectures Machine Learning Resarchers Need to Learn》电子版地址
|
机器学习/深度学习
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
|
机器学习/深度学习 数据挖掘 Java
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(二)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章
|
机器学习/深度学习 数据挖掘 计算机视觉
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(三)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章