最前沿：图文结合详解深度学习Memory & Attention-阿里云开发者社区

首发地址：https://yq.aliyun.com/articles/65356

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

以下为译文：

13f3a6549dc4230c911e71bf3419780d760f523d

深度学习中的记忆和注意力前沿

作者 Stephen Merity

0529af532dd46b350bf54c5b81c29e11d7940015

当你有好的数据集时候，深度学习在图像和文字分类方面可以给出高的精度，这是由于大数据可以很好的训练自己的分类器，而且几乎没有用到经验知识。

0cb015edb81a07a51c0d2d8f1d4f53bfb3b92640

对于低年级学生而言，也可以很容易获得好的分类器，图中显示的是给TrashCam创建的一个定制视觉分类器[Trash，Recycle，Compost]，精度能够达到90%

dff437e8f73684de911c6bf43bb303d20b22b8be

图中是颅内出血的检测，该分类器是由MM大学的 Caiming Xiong，Kai Sheng Tai等人创建，能够很好的识别颅内出血的情况

a0dac6fd2de045e1c12520602278840aa1df8f3c

深度学习和ImageNet挑战，在2012年的挑战中，AlexNet网络实现了16.4%的错误率，而最好的第二名网络模型（non CNN）错误率为26.2%，领先第二名接近10%。

54b5496ebe32ac98462286311904aaaf85dea012

特别注意到，人的识别错误率为5.1%

0fd096079eeffe3849d66639d94793630b32cf19

取得这么好的原因很大一部分归功于硬件的发展，从图可以看出，AlexNet网络训练了20个迭代，是通过GPU联合Cudnn加速训练的。

a556056a85f7112e86e12fcc0757fc945388bb30

但也不要将深度学习应用到任何地方，在深度学习中，结构工程师是未来新的工程师；这是机器学习，不是魔法。

5298105482c26ddd85df42cbd4f6c38374e91a0b

除了分类之外，可以进行图片内容识别，常用的数据库有VAQ数据库；从图中看到，识别的是一个人在雪地里穿着背着双肩包；

4839b7d147ee3bfd49c975e0f6b6d8e4f663b554

比如识别口味，上传一张照片，然后分析该饮料是哪种口味。如图所示，分析出来的口味有五种，Smoothie、Lassi、Milkshake、Cocktail以及Yogurt。其中为Smoothie口味的可能性为75%，Lassi口味的可能性为21%，Milkshake口味的可能性为1%，其它两种口味的概率低于1%；

9401bfa8c245544533647e645bc2155889963c19

自动回答相关问题：图片中有人吗，回答是没有；图片是什么时候拍摄，回答是白天；图片中饮料类型，回答是smoothie等

b31b450eebf11789a8e73dbc4ff0aa9532e0232a

自动识别：从图中看出，Visual Gennome模型可以识别图中的物体与活动并针对不同问题的回答，比如河流在哪里，回答是在桥下；这座拱桥有几个拱，回答是两个等。

336da9daea7c8f18e166adc1b28d6a8e171b31d8

Facebook的 bAbl 数据集是将几种问题回答任务放在一起，从该数据集中提取出来的片段如图所示，可以根据句子回答相应的问题。

d396362c548c115379fa3d9715260f56f19646e0

人类问答过程

想象下我给你一篇文章或一幅图片，并要求你记住它，之后将其拿走并问你一些问题，及时你再聪明，你也将会获得一个糟糕的分数。这是因为你不能在工作的记忆中存储任何东西；没有一个问题是针对你的关注点的，你关注在一些不重要的细节上是一种浪费

最佳情况：给你一个输入数据，然后问你一个问题，你回答的时候允许尽可能多的扫视数据。

b770c67204c51a47a106ee257bf58cabe7952d7b

考虑信息瓶颈

你的模型是在哪里被强制使用压缩表示？更重要的是，使用后效果是不是很好？

7b3dc581d7626dad531af6b16aff22f3f707f842

神经网络，压缩，这些术语我们之前有没有听到过？

98a27a9c9660f7754e9728e5b3b590a6b9ef40af

发誓没有引出争议或者是要求风险投资；数字资源的边缘信息送入流水线服务中，中央数据存储与神经网络中的机器学习相互交换数据，后端提供相应的服务。

d4be13029d4a8eba7d613991bf77f2904ba04c29 e2a7ea2a8c8fcde5875cb7d261bdf16ea8a39661

图中是一个真实的世界，没有人正在做CNN压缩。

93f27f6def430f109c39544ccba6e595a036e2de

除了Magic Pony在做CNN压缩外。MagicPony由帝国理工学院（Imperial College London）几位研究生创立，主要业务是通过大规模神经网络处理视觉信息，特别的地方在于，通过部分无监督学习的方式，基于以前的训练来自行产生图像。简单的说，就在处理过大量碎片化的视频片段之后，算法能够自动生成视频来进行补充，或者增强像素化视频游戏图像的解析度。

acfdffac1b21085d464c07d712e72fae6809a2d2

两幅图片来自视频流，左右图像是相同的比特率，而右图比左图稍微清晰些。

92288b31390924dfdcb5a6878de3e0886b238660

现在是bird+Magic Pony，原因是Twitter收购了Magic Pony。这是鉴于Twitter在视频直播方面的巨大资金投入，以及处理这些视频所需的海量储存与计算设备投入。

91e8f2fe564ae19b5db393e77d0085d972721876

从压缩的角度考虑神经网络

e9c1800810b31bb8eb2ff15437df4f6b49e37cb3

比如文本向量，将“dog”转化为100维向量；

6d4e779629f74dea082568a5e77ce077f1126019 14a80586608e85675f6b4716d30776f714a913a8

8781c17d49eff172a0becf92b6da11860de8cf75

转化为100维向量的效果如图所示

b6159eff762d5e0161b97532a7acfcbe36d92fa6

Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想，可以通过训练把对文本内容的处理简化为 K 维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作，比如聚类、找同义词、词性分析等等。如果换个思路，把词当做特征，那么Word2vec就可以把特征映射到 K 维向量空间，可以为文本数据寻求更加深层次的特征表示。文本向量通过word2vec模型，可以识别句子中含“dog”的位置。