FineTuning机制的分析

2017-08-10 1125

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： FineTuning机制的分析为什么用FineTuning使用别人训练好的网络模型进行训练，前提是必须和别人用同一个网络，因为参数是根据网络而来的。当然最后一层是可以修改的，因为我们的数据可能并没有1000类，而只有几类。

FineTuning机制的分析

为什么用FineTuning

使用别人训练好的网络模型进行训练，前提是必须和别人用同一个网络，因为参数是根据网络而来的。当然最后一层是可以修改的，因为我们的数据可能并没有1000类，而只有几类。把最后一层的输出类别和层的名称改一下。用别人的参数、修改后的网络和自己的数据进行训练，使得参数适应自己的数据，这样一个过程，通常称之为微调（fine tuning). 也就是说，我们所拥有的数据很小，不足以训练一个网络，这是用别人训练过的参数以及网络训练我们自己的数据的过程就是微调(fine tuning)。

怎么FineTunning

Fine tuning 之所以有效的原因是，用到的网络是同一个网络，用到的参数是别人已经训练好的数据，所以在准确率上会有保证，这时候再稍微调整别人训练好的参数，往往会能达到我们想要的效果。

调整net文件

因为我们自己的数据集变化了，所以要修改net网络文件，大部分的内容都不变，变的只有data层、output层、batch的大小、前几层的学习率。data层需要改成我们自己的数据，output层的修改主要包括层的名字(使用不同的名字，预训练网络中该层的参数会重新初始化)和输出类别数目，并且要减小batch的大小，但是要和GPU的大小成比例。

对于学习率的调整是很重要的，如果有的层的参数不需要更新，可以把学习率设置为0.比如有4个全连接层，希望C层的参数不会改变，C前面的AB层的参数也不会改变，这种情况也就是D层的梯度不往前反向传播到D层的输入blob（也就是C层的输出blob 没有得到梯度），你可以通过设置D层的学习率为0，layer的梯度就不会反向传播了，前面的所有layer的参数也就不会改变了。对于有参数的更新的层，学习率可以减小10倍或100倍(最后一层除外)，对于最后一层的学习率可以提高10倍，加快学习速率，因为该层需要重新学习。

调整solver文件

solver.prototxt文件中的参数一般只需要修改net训练网络的名称、学习率、最大迭代次数和snapshot。首先将net从预训练使用的net换为现在使用的net，然后降低学习率(一般降低10倍或者100倍)，同时，将最大迭代次数和snapshot的数目相对减少。

Fine Tuning的原理

Fine tuning的原理就是利用已知的网络结构和已知的网络参数，修改output层为我们自己的层，微调最后一层前的所有层的参数，加大最后一层的学习率，因为最后一层我们需要重新学习，所以与其它层相比要有相对较大的学习率，这样就有效利用了深度神经网络强大的泛化能力，又免去了设计复杂的模型以及耗时良久的训练，所以fine tuning是当数据量不足时的一个比较合适的选择。

当神已无能为力，那便是魔渡众生

FineTuning机制的分析

FineTuning机制的分析

为什么用FineTuning

怎么FineTunning

调整net文件

调整solver文件

Fine Tuning的原理

热门文章

最新文章

相关课程

相关电子书

相关实验场景