不懂得如何优化CNN图像分类模型?这有一份综合设计指南请供查阅

简介: 本文是一篇关于使用CNN完成图像分类的综合设计指南,涵盖了一些模型设计、模型优化以及数据处理经验,是一份适合图像分类方向研究者参考的综合设计指南。

       对于计算机视觉任务而言,图像分类是其中的主要任务之一,比如图像识别、目标检测等,这些任务都涉及到图像分类。而卷积神经网络(CNN)是计算机视觉任务中应用最为广泛且最为成功的网络之一。大多数深度学习研究者首先从CNN入门,上手的第一个项目应该是手写体MNIST数字图像识别,通过该项目能够大致掌握图像分类的基本操作流程,但由于该项目太成熟,按步骤操作一遍可能只知其然而不知其所以然。所以,当遇到其它图像分类任务时,研究者可能不知道如何开始,或者不知道选取怎样的预训练网络模型、或者不知道对已有的成熟模型进行怎样的调整、模型的层数怎样设计、如何提升精度等,这些问题都是会在选择使用卷积神经模型完成图像分类任务时应该考虑的问题。
       当选择使用CNN进行图像分类任务时,需要优化3个主要指标:精度、仿真速度以及内存消耗。这些性能指标与设计的模型息息相关。不同的网络会对这些性能指标进行权衡,比如VGG、Inception以及ResNets等。常见的做法是对这些成熟的模型框架进行微调、比如通过增删一些层、使用扩展的其它层以及一些不同的网络训练技巧等完成相应的图像分类任务。
       本文是关于使用CNN进行图像分类任务的优化设计指南,方便读者快速掌握图像分类模型设计中所遇到的问题及经验。全文集中在精度、速度和内存消耗这三个性能指标进行扩展,介绍不同的CNN分类方法,并探讨这些方法在这三个性能指标上的表现。此外,还可以看到对这些成熟的CNN方法进行各种修改以及修改后的性能表现。最后,将学习如何针对特定的图像分类任务优化设计一个CNN网络模型。

网络类型

11


       网络类型和性能指标之间有一个非常明显的权衡现象。首先肯定会选择Inception或ResNet网络类型的模型,因为这两个网络比VGG和AlexNet模型更新,只是在精度和仿真速度两个指标之间进行了权衡,如果想要精度,选择ResNet网络是个不错的开端,如果想要仿真速度快,那就选择Inception网络。

用智能卷积设计减少运行时间和内存消耗

       CNN总体设计的最新进展已经有一些令人惊叹的替代方案,在不损失太多精度的前提下,可以加快CNN仿真运行的时间并减少内存消耗。以下所有的这些都可以很容易地集成到上述CNN成熟模型之中:

  • MobileNets:使用深度可分离卷积技术,在仅牺牲1%~5%的精度的条件下,极大地减少了计算量和内存消耗量,精度的降低程度与计算量和内存消耗量的下降成正比。
  • XNOR-Net:使用二进制卷积,即卷积核只有两种取值:-1或1。通过这种设计使得网络具有很高的稀疏性,因此可以很容易地压缩网络参数而不会占用太多内存。
  • ShuffleNet:使用逐点群卷积(pointwise group convolution)和信道重排(channel shuffle)大大降低计算成本,同时网络模型的精度要优于MobileNets。
  • Network Pruning(网络剪枝):去除CNN模型的部分结构以减少仿真运行时间和内存消耗,但也会降低精度。为了保持精度,去除的部分结构最好是对最终结果没有多大的影响。

网络深度

       对于CNN而言,有一些常用的方法是增加通道数以及深度来增加精度,但是会牺牲仿真运行速度和内存。然而,需要注意的是,层数增加对精度的提升的效果是递减的,即添加的层越多,后续添加的层对精度的提升效果越小,甚至会出现过拟合现象。

12
13

激活函数

       对于神经网络模型而言,激活函数是必不可少的。传统的激活函数,比如Softmax、Tanh等函数已不适用于CNN模型,有相关的研究者提出了一些新的激活函数,比如Hinton提出的ReLU激活函数,使用ReLU激活函数通常会得到一些好的结果,而不需要像使用ELU、PReLU或LeakyReLU函数那样进行繁琐的参数调整。一旦确定使用ReLU能够获得比较好的结果,那么可以优化网络的其它部分并调整参数以期待更好的精度。

卷积核大小

       人们可能普遍认为使用较大的卷积核(比如5x5、7x7)总是会产生最高的精度,然而,并不总是这样。研究人员发现,使用较大的卷积核使得网络难以分离,最好的使用像3x3这样更小的内核,ResNetVGGNet已经很好地证明了这一点。此外,也可以使用1x1这样的卷积核来减少特征图(Feature map)的数量。

空洞卷积

       空洞卷积(Dilated Convolutions)使用权重之间的间距以便能够使用远离中心的像素,这种操作允许网络在不增加网络参数的前提下增大感受野,即不增加内存消耗。相关论文表明,使用空洞卷积可以增加网络精度,但也增加仿真运行消耗的时间。

14

数据扩充

       深度学习依赖于大数据,使用更多的数据已被证明可以进一步提升模型的性能。随着扩充的处理,将会免费获得更多的数据,使用的扩充方法取决于具体任务,比如,你在做自动驾驶汽车任务,可能不会有倒置的树、汽车和建筑物,因此对图像进行竖直翻转是没有意义的,然而,当天气变化和整个场景变化时,对图像进行光线变化和水平翻转是有意义的。这有一个很棒的数据扩充库

训练优化

       当对网络训练过程优化时,有几种优化算法可供选择。常用的算法是随机梯度下降算法(SGD),但该算法需要调整学习率等参数,这一过程略显乏味;另外使用自适应学习率梯度下降算法,比如Adam、Adagrad或Adadelta算法,是比较容易实现的,但是可能无法获得最佳的梯度下降算法精度。
       最好的办法是遵循和激活函数类似的处理方式,先用简单的训练方法来看看设计的模型是否工作得很好,然后用更复杂的方式进行调整和优化。个人推荐从Adam开始,该方法使用起来非常容易:只需要设定一个不太高的学习率,通常默认设置为0.0001,这样一般会得到非常好的效果,之后可以使用SGD算法进行微调。

15

类别平衡

       在很多情况下,可能会遇到数据不平衡问题。数据不平衡是什么意思呢?举一个简单的例子:假设你正在训练一个网络模型,该模型用来预测视频中是否有人持有致命武器。但是训练数据中只有50个持有武器的视频,而有1000个没有持有武器的视频。如果使用这个数据集完成训练的话,模型肯定倾向于预测视频中没有持有武器。
       针对这个问题,可以做一些事情来解决:

  • 在损失函数中使用权重:对数据量小的类别在损失函数中添加更高的权重,使得对于该特定类别的任何未正确分类将导致损失函数输出非常高的错误。
  • 过采样:重复包含代表性不足类别的一些训练实例有助于提升模型精度。
  • 欠采样:对数据量大的类别进行采样,降低二者的不平衡程度。
  • 数据扩充:对数据量小的类别进行扩充。

优化迁移学习

       对于大多数数据而言,一般的做法是使用迁移学习,而不是从头开始训练网络模型。迁移学习就是基于一些成熟的模型,使用其部分网络结构参数,只训练一些新的网络部件。在这个过程中遇到的问题是,选择什么样的模型进行迁移学习,保留哪些网络层、哪些网络部件需要重新训练,这都取决于你的数据集是什么样子。如果你的数据与预训练的网络(网络一般是通过ImageNet数据集训练)更相似,那么需要重新训练的网络部件也越少,反之亦然。例如,假设正在尝试区一个图像是否包含葡萄,那么数据集是由包含葡萄的图像与不包含图像组成,这些图像与ImageNet中的图像非常相似,所以只需要重新训练选取的模型最后几层,也许只是训练最后的全连接层,因为ImageNet是区分1000类,而本次任务只区分两类——图像中包不包含葡萄,所以只需更改最后的全连接层参数。又假设正在尝试分类外太空图像中是否包含行星,这类的数据与ImageNet的数据集有很大的不同,因此需要重新训练模型后面的卷积层。

16

结论

       本文是针对使用CNN完成图像分类任务的优化设计指南,给出了一些常见的优化方式,便于初学者按照给定的规则调整优化网络模型。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

作者信息

George Seif,机器学习工程师,
个人主页:https://www.linkedin.com/in/georgeseif/
本文由阿里云云栖社区组织翻译。
文章原标题《A Comprehensive Design Guide for Image Classification CNNs》,译者:海棠,审校:Uncle_LLD
文章为简译,更为详细的内容,请查看原文

相关文章
|
25天前
|
机器学习/深度学习
大模型开发:解释卷积神经网络(CNN)是如何在图像识别任务中工作的。
**CNN图像识别摘要:** CNN通过卷积层提取图像局部特征,池化层减小尺寸并保持关键信息,全连接层整合特征,最后用Softmax等分类器进行识别。自动学习与空间处理能力使其在图像识别中表现出色。
24 2
|
3月前
|
机器学习/深度学习 算法 TensorFlow
文本分类识别Python+卷积神经网络算法+TensorFlow模型训练+Django可视化界面
文本分类识别Python+卷积神经网络算法+TensorFlow模型训练+Django可视化界面
57 0
文本分类识别Python+卷积神经网络算法+TensorFlow模型训练+Django可视化界面
|
3月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
基于深度学习的图像分类:使用卷积神经网络实现猫狗分类器
基于深度学习的图像分类:使用卷积神经网络实现猫狗分类器
56 0
|
24天前
|
机器学习/深度学习 算法 数据可视化
基于GA优化的CNN-GRU-Attention的时间序列回归预测matlab仿真
该内容描述了一个使用CNN-LSTM-Attention模型优化时间序列预测的过程。在优化前后,算法的预测效果有明显提升,软件版本为matlab2022a。理论部分介绍了CNN用于特征提取,LSTM处理序列依赖,Attention关注重要信息,以及遗传算法(GA)优化超参数。提供的核心代码展示了GA的优化迭代和模型训练,以及预测结果的可视化比较。
|
1月前
|
机器学习/深度学习 PyTorch TensorFlow
python实现深度学习模型(如:卷积神经网络)。
【2月更文挑战第14天】【2月更文挑战第38篇】实现深度学习模型(如:卷积神经网络)。
|
2月前
|
机器学习/深度学习 自然语言处理 大数据
深度学习中的卷积神经网络优化技术探析
【2月更文挑战第4天】在深度学习领域,卷积神经网络(CNN)一直扮演着重要角色,但其训练和推理过程中存在许多挑战。本文将从优化角度出发,探讨卷积神经网络中的权重初始化、损失函数设计、学习率调整等优化技术,旨在为深度学习爱好者提供一些实用的技术感悟和分享。
22 3
|
2月前
|
机器学习/深度学习 并行计算 算法
模型压缩部署神技 | CNN与Transformer通用,让ConvNeXt精度几乎无损,速度提升40%
模型压缩部署神技 | CNN与Transformer通用,让ConvNeXt精度几乎无损,速度提升40%
50 0
|
2月前
|
机器学习/深度学习 编解码 算法
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
36 0
|
3月前
|
机器学习/深度学习 网络架构 计算机视觉
CNN经典网络模型之GoogleNet论文解读
GoogleNet,也被称为Inception-v1,是由Google团队在2014年提出的一种深度卷积神经网络架构,专门用于图像分类和特征提取任务。它在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比赛中取得了优异的成绩,引入了"Inception"模块,这是一种多尺度卷积核并行结构,可以增强网络对不同尺度特征的感知能力。
|
4月前
|
机器学习/深度学习 数据采集 PyTorch
PyTorch搭建卷积神经网络(ResNet-50网络)进行图像分类实战(附源码和数据集)
PyTorch搭建卷积神经网络(ResNet-50网络)进行图像分类实战(附源码和数据集)
92 1

热门文章

最新文章