【完结】12篇文章带你逛遍主流分割网络-阿里云开发者社区

【完结】12篇文章带你逛遍主流分割网络

2019-08-03 782

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 专栏《图像分割模型》正式完结了。在本专栏中，我们从编解码结构入手，讲到解码器设计；从感受野，讲到多尺度融合；从CNN，讲到RNN与CRF；从2D分割，讲到3D分割；从语义分割到实例分割和全景分割。这篇文章我们就一起回顾一下这些网络结构。

本文授权转载自公众号：有三AI

专栏《图像分割模型》正式完结了。在本专栏中，我们从编解码结构入手，讲到解码器设计；从感受野，讲到多尺度融合；从CNN，讲到RNN与CRF；从2D分割，讲到3D分割；从语义分割到实例分割和全景分割。这篇文章我们就一起回顾一下这些网络结构。

作者 | 孙叔桥

编辑 | 言有三

FCN

Fully Convolutional Network（FCN）是神经网络用于图像分割任务的鼻祖，后续提出的大部分基于编解码结构的图像分割网络都是从FCN上发展、改进而来的。

FCN用卷积层替换了分类网络结构中的全连接层，从而得到稠密的分割结果，实现端到端训练。

同时，网络还将不同尺度下的特征信息进行融合，实现更细节的图像分割。

【图像分割模型】从FCN说起

SegNet

SegNet在FCN的基础上增加了解码器，形成目前分割任务中最流行的编解码结构，并给出了不同解码器对效果的影响和原因。

此外，由于应用了基于位置信息的加码过程，相比较FCN而言，SegNet中的对应结构的体量要小得多。

【图像分割模型】编解码结构SegNet

空洞卷积

编解码结构中，为了平衡空间尺寸与计算量，同时增大网络结构的感受野，通常会对输入图像进行一定的下采样。为了恢复分割结果的空间分辨率，解码器往往需要应用上采样或反卷积。

但是，基于插值的上采样效果通常不理想，而反卷积操作则增加了计算量。基于此，DeepLab中就提出了“空洞卷积”的概念，在不增加参数个数的基础上，实现感受野与分辨率的控制。

【分割模型解读】感受野与分辨率的控制术—空洞卷积

ENet

图像分割的任务最终还是要落脚于实际应用，而此前的网络结构最快也只能达到1fps，远不及实时所需要的10fps。

ENet基于空洞卷积，实现了NVIDIA TX1上分辨率480x320下的21.1fps。

此外，文中还介绍了设计实时网络结构所需要考虑的6个重要内容。

【图像分割模型】快速道路场景分割—ENet

CRFasRNN

在许多计算机视觉任务中，后处理操作能够有效提升算法的质量。而在众多后处理方法中，条件随机场（CRF）的效果名列前茅。

然而，CRF的理论性强，应用起来不方便。因此，CRFasRNN中提出以RNN的形式实现CRF的解决方案，从而让基于CRF的后处理变得简单。

【图像分割模型】以RNN形式做CRF后处理—CRFasRNN

PSPNet

不同感受野下所带来的上下文信息对图像分割而言十分重要，往往感受野选择的恰当性会直接影响最终的分割效果，这种影响对极端尺寸（极大和极小）目标表现地尤为明显。

为了在同一级别下融合多尺度下的上下文信息，PSPNet提出了池化金字塔结构，从而实现了可以理解目标所处环境的图像分割。

【图像分割模型】多感受野的金字塔结构—PSPNet

ParseNet

尽管从网络结构看，有些网络的理论感受野能够达到非常大，但实际上，理论感受野并不能等同于实际感受野，其覆盖和利用的信息也不够完整。

基于这个发现，ParseNet提出了基于池化的全局特征利用，从而实现全局特征与局部特征融合下的图像分割。

文中也介绍了如何有效融合两种特征，并利用好融合特征。

【图像分割模型】全局特征与局部特征的交响曲—ParseNet

RefineNet

尽管前面的特征融合方法能够恢复在计算过程中被下降的空间分辨率，但是这种恢复往往没有利用完整的原始空间信息，从而导致最终结果中的信息丢失。

基于此，RefineNet设计了空间分辨率的恢复结构，实现了基于残差卷积模块（RCU）、多分辨率融合模块（MRF）和串联残差池化模块（CRP）下的高精度图像分割。

【图像分割模型】多分辨率特征融合—RefineNet

ReSeg

尽管CNN的效果不错，但是其需要依赖人工指定的核函数实现计算，从而限制了上下文的处理能力。因此，ReSeg提出基于双向循环神经网络（BRNN）实现分割，来克服这种不足。

在ReNet的基础上，ReSeg通过依次扫描互相垂直的两个方向，实现不同时序下的特征提取。

【图像分割模型】用BRNN做分割—ReSeg

LSTM-CF

除了单纯基于2D的RGB图像的分割外，图像分割任务的完成还可以利用深度信息进行辅助，从而实现纹理信息下无法判断的分割。

LSTM-CF基于ReNet和空洞卷积，实现结合了深度信息的图像分割。为精度提升和深度信息利用提供了一种思路。

【图像分割模型】BRNN下的RGB-D分割—LSTM-CF

DeepMask

除了语义分割，图像分割中还有另外两种类别的任务：实例分割和全景分割。

我们通过DeepMask，给出了实例分割下的网络的设计思路。DeepMask可以同时实现前背景分割、前景语义分割和前景实例分割。

【图像分割模型】实例分割模型—DeepMask

全景分割

语义分割与实例分割任务虽然相似，但是由于度量不同，二者无法直接结合。为了实现整图内things类别和stuff类别的同时分割，全景分割任务提出了新的度量。

全景分割任务下，图像内的每个像素点都有其对应的语义标签和实例标签（things类别），从而能够最大程度上地理解整幅图像。

【图像分割模型】全景分割是什么？

总结

希望经过这个专栏，想入门图像分割的小伙伴们对这个领域已经有了基本的概念和了解，已经入门的小伙伴能够找到自己的盲区继续深入。

研究的路需要静下心慢慢走，揪住一个点不断精进，希望有我们的陪伴，这条路大家走得不那么孤独，也更顺利。

就这样啦，再见！

【完结】12篇文章带你逛遍主流分割网络

FCN

SegNet

空洞卷积

ENet

CRFasRNN

PSPNet

ParseNet

RefineNet

ReSeg

LSTM-CF

DeepMask

全景分割

总结

天池大数据科研平台

热门文章

最新文章

相关课程

相关电子书

相关实验场景