深到骨子里的自律,是每周坚持刷几篇最新论文 | PaperDaily #10

简介: [ 自然语言处理 ] Don't Decay the Learning Rate, Increase the Batch Size @RamonYeung 推荐 埋下伏笔:来自 Google Brain 的论文。


[ 自然语言处理 ]


Don't Decay the Learning Rate, Increase the Batch Size
@RamonYeung 推荐
9

埋下伏笔:来自 Google Brain 的论文。

文章主要讲明白四点:

1, 主动降低学习率(Decaying the Learning Rate)是模拟退火,因为降低学习率导致 SGD 训练时,随机波动的幅度也减少了;

2,我们提出一个替代方案:不降低学习率,在训练时提高 batch_size。在训练相同 #epochs 下,这种策略在测试集上达到了几乎相同的模型性能,但是显着减少了参数更新的次数。我们的方案不需要通常的训练做法(Fine-tuning)。当需要将学习率降低为原来的 1/α 时,我们将 batch_size 改为原来的 α 倍。

3, 参数更新次数可以进一步缩短:

  • 提高学习率 ϵ,同时按 B∝ϵ 的方式提高 batch_size;
  • 提高动量系数(Momentum Coefficient)m, 同时按 B∝1/(1−m) 的方式提高 batch_size。

4, 结合这些策略,我们在 ImageNet 上对 Inception-ResNet-V2 进行 2500 次参数更新,达到 77% 的验证集精度。为了实现这一点, 训练时 batch_size=65536。相比之下,Goyal 等人(2017)需要 14000 个参数更新, 使用 ResNet-50 达到 76% 的验证精度,batch_size=8192。

前提是:你有钱买更多的 GPUs 装入更大的 batch_size。

论文链接
http://www.paperweekly.site/papers/1071


Memory-augmented Neural Machine Translation
@yuer3677 推荐
8

该篇文章将传统 SMT 的词对应关系以 Memory 的形式组合到 NMT 上,结合了两者的优势。一方面增加了 rare word 的出现概率,提升了翻译 performance;另一方面提供了一种解决 unknown words 的思路。该方法尤其在小数据集上效果明显。

论文链接
http://www.paperweekly.site/papers/1037


Sequence-to-Dependency Neural Machine Translation
@jerryshi 推荐
7

1, 文章有什么贡献? 提出了一种新的 Sequence-to-Dependency Neural Machine Translation (SD-NMT) 的方法,来将目标语言句法知识利用进了 NMT 系统,相比起没有使用句法知识的基准 NMT 系统,性能得到了相对的提高。
2, 研究的问题有何价值?目前的 NMT 系统主要是直接用线性 RNN 来进行 Seq2Seq,但是这样的系统对于捕捉不明显的长距离词的依存还是有很大难度的。因此在解码的时候,将句法知识考虑进解码器中后,可以提高翻译结果语法的正确性,并且也可以利用局部依存信息来生成之后的词语。
3, 研究问题有什么挑战?一,如何利用 RNN 来构建句法结构;二,如何在一个神经网络中,有效地同时进行词语生成,还有句法结构的构建;三,如何有效地利用目标语言的句法背景,来帮助词语的生成。

4. 本文的解决思路?

利用了两个 RNN 网络,Action RNN 和 Word RNN,分别进行词语生成和句法结构的构建。Action RNN 利用了 transition-based dependency parsing(基于转换的依存句法分析)中的 arc-standard shift-reduce algorithm 算法,来生成构建所需依存结构的动作。而同时因为两个 RNN 生成的的序列长度不一致,所以 Word RNN 利用了些技巧,使得它能够参考 Action RNN 的结果输出词语,或者保持不变以和 Action RNN 的时序保持一致。

通过定义生成依存结构时的栈顶部两个词语,最左和最右修饰语的一元和二元语言特征,生成相对当前词汇的局部依存背景。之后将这个背景与 Word RNN 的输出结合起来,帮组生成新的词汇。

论文链接
http://www.paperweekly.site/papers/994


[ 计算机视觉 ]


Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification
@LUOHAO 推荐
6

  1. 文章提出了一种新的度量学习方法 Margin sample mining loss - MSML。Triplet loss 是一种非常常用的度量学习方法,Quadruplet loss 和 Triplet hard batch loss(TriHard loss)是它的两个改进版本,而 MSML 是吸收了 Quadruplet loss 和 TriHard loss 两个优点的综合体,实验证明 MSML 能够在 person ReID 的公开数据集上取得很好的结果;
  2. 这个方法不止可以应用于 person ReID,而是一种通用的度量学习方法,进一步可以延伸到图像检索等相关的各个领域。


论文链接
http://www.paperweekly.site/papers/1069


Fader Networks: Manipulating Images by Sliding Attributes
@Gapeng 推荐
5

跟其他 GAN 方法不同,Fader nets 通过在隐层编码引入对抗来实现属性相关编码和属性无关编码的分离。D 尝试从 Encoder 的编码中预测出属性,而 Encoder 则尽量学习不带属性的编码,以使 D 的预测失效。Decoder 接收 Encoder 的编码以及额外的属性作为输入,以重构/修改图像。文章的效果非常好,目前复现存在难度,过段时间作者会开源代码。

论文链接
http://www.paperweekly.site/papers/1009


Scale-adaptive Convolutions for Scene Parsing
@lisabug 推荐
4
ICCV'17 Poster。 简而言之,文章提出了一个 scale-adaptive 的 dilation conv层。

  1. 与 fixed coefficient 的 dilation conv 相比,本文提出的 scale-adaptive conv 层通过前一层的 feature 对于每一个位置预测一个 variant coefficient。对于大物体,我们应该需要更大的感受野,因此得到一个大的系数;对于小物体,我们应该关注细节而忽略背景,则缩小感受野更加强调细节的 feature。可以参考文章图 3 理解;
  2. dilation 系数非整数时,使用常见的 STN 中的 bilinear interpolation 做到可以 e2e 的学习;
  3. 合理的初始化系数回归层的参数,并在训练时进行对其 clip,使得 dilation 系数位于一个合理的范围内;
  4. 文章提到在高层使用效果较好;
  5. 即插即用,较小的额外参数和计算开销。相比 baseline 不加多尺度训练的情况下可以在 cityscape 上涨 2 个多点。


论文链接
http://www.paperweekly.site/papers/1056


[ 机器学习 ]


Paraphrase Generation with Deep Reinforcement Learning
@paperweekly 推荐
3
用增强学习来解决端到端 paraphrase 生成问题,取得了不错的效果。
论文链接
http://www.paperweekly.site/papers/1048


A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs
@AkiyamaYukari 推荐
2
一种新的概率生成模型(probabilistic generative model )被提出了,而且在一定任务上表现超过了现有的神经网络。
论文链接
http://www.paperweekly.site/papers/1005


Reparameterizing the Birkhoff Polytope for Variational Permutation Inference
@tmasada 推荐
1
This paper proposes new probability distributions on permutations. The variational inference is performed by using reparameterization trick.
论文链接
http://www.paperweekly.site/papers/1007

原文发布时间为:2017-11-6
本文作者:让你更懂AI的
本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
2月前
|
存储 关系型数据库 MySQL
论青春线上书屋的设计与实现(论文+源码)_kaic
论青春线上书屋的设计与实现(论文+源码)_kaic
|
8月前
|
存储 测试技术 C#
C#面试十问
C#面试十问
98 0
C#面试十问
|
5月前
|
人工智能 数据格式 Python
每日一问-ChapGPT-20230308-关于技术与思考的问题
每日一问-ChapGPT-20230308-关于技术与思考的问题
每日一问-ChapGPT-20230308-关于技术与思考的问题
|
5月前
|
SQL 算法 NoSQL
三面头条,靠P9级算法大牛分享的两本算法pdf书籍,轻松拿到offer
头条一面(Java+项目) 1.倒排索引 2.讲讲redis里面的哈希表? 3.happen-before的规则? 4.volatile修饰符,synchronize锁 5.java单例模式的实现,懒汉、饿汉? 6.进程与线程的区别,多进程和多线程的区别?
|
8月前
|
算法 机器人 调度
降维打击,offer拿到吐!字节跳动算法大佬工作笔记整成算法宝典
前言 算法,一个听起来高深又晦涩的概念,仿佛逐渐支配了我们日常生活的方方面面,依托这个概念而衍生出的工作行业,也逐渐成为兼具“前途”与“钱途”的香饽饽。 其实要搞清楚“算法”为什么值钱,看看我们的日常生活就知道。从早上出门打车用的打车软件、导航软件,上班用的电脑、文件和在线工具,点外卖咖啡的App(应用程序)和快递调度,到手机支付,孩子上的网课,在淘宝、京东购物,看微信,刷抖音,用语音助手,和机器人聊天,这些行为背后全是强大的算法在操纵。 未来是人和机器一起仰望星空的时代,而算法是打开未来世界的钥匙。普通人需要深度了解算法吗?答案当然是肯定的。或许你已经听倦了“我们生活在算法操控的时代”这
60 0
|
Java 程序员
话题讨论 | 程序员表白,不光需要“技术”,更需要勇气!
回忆起我们的点点滴滴,我们也有美好回忆。程序员应该如何表白呢 ?很大一部分是不够自信,怕穷,怕拒绝,其实更多的你可能需要的是一份勇气,爱,要大声说出来!恰逢官方正文,在此总结一下我们的点点滴滴,平凡而又伟大。
192 0
|
存储 机器学习/深度学习 算法
【算法攻坚】算法刷题开篇
单词表中的abandon 万事开头难,现在就从单词第一个入手,这道本身也不难,所以就从他开始了 two sum
87 0
通往至高境界的磨刀石:读书(深度好文)
# 前言 读书,是通往至高境界的磨刀石。 在书中,你会与世界上那些思维最深,境界最高的大师相遇。在潜移默化的阅读中,在良性环境的影响中,会使你的心胸逐渐开阔,人格逐渐完整。 慢慢地,你看待事物的角度会更加多样,对本质的思考会更加深入。每一次的阅读,都是你与大师的心灵交流,在这里,你会遇见更好的自己,重塑一个全新的自我。 # 本文大纲 ![](https://p3-juejin.bytei
博士论文写作攻略:这才是效率
还记得上一期的小倔强吗,那个帖子详细分析了传统vs现代的毕业论文写作方式的优缺点。后面说了直播码字,就在今天开始! 九天学者编程直播间 关注九天学者微信公众号获取及时开播通知! 九天学者博士论文写作不定时直播 ...
1099 0