【技术短文】基于深度负相关学习的人群计数方法-阿里云开发者社区

SIGAI 特邀作者：cnns

原创声明：本文为 SIGAI 原创文章，仅供个人学习使用，未经允许，不得转载，不能用于商业目的。

8fb479819e33bafbd7beeee8f2d92bda8d6dc193

1. 人群计数

监控视频中的人群自动计数有着重要的社会意义和市场应用前景。充分利用兴趣区域的人数统计信息可以为一些人群密集的商场、车站、广场等公共场合的安全预警提供有效的指导。还可以带来经济效益，例如，提高服务质量、分析顾客行为、广告投放和优化资源配置等。因此，该问题已成为计算机视觉和智能视频监控领域的重要研究内容。

近年来，随着计算机视觉技术的持续发展，大量的人群计数方法被提出。基于人群特征回归人群人数的方法是当前的主流方法。此回归方法将人群视为一个整体，利用图像特征和人群人数之间的回归关系实现行人计数。这类方法能够有效地解决人群遮挡问题，具有大规模人群计数的能力。直接的回归一个图像中总的人数在实际中准确率不够理想，因为总人数所包含和表达的人群信息极其有限。近年来大多数基于回归的方法首先根据标注的人头位置和核密度估计生成每个人群图像所对应的人群密度图（如图1所示），然后基于人群特征回归人群密度图，最后计算人群密度图的数值总和作为最终的预测人数。人群密度图保留了人群的分布信息，因此包含了更多和更丰富的人群信息，这对于获得更准确的预测结果是非常关键的。

87bd9f9e4ac0c125eaec080075da7dc9c914808e

图1 人群密度图

2. 深度人群计数模型

深度学习通过多层结构将底层特征逐步转换为更加抽象的高层特征，具有优异的特征学习能力，学到的特征对数据有更本质的刻画。深度卷积神经网络（Convolutional neural network, CNN）是最成功的深度模型之一，在计算机视觉领域有着广泛的应用。CNN 凭借特有的卷积–池化 (Convolution-pooling) 结构获的特征对平移、缩放和旋转具有不变性，相比于底

层特征，判别能力和鲁棒性更强。近年来很多深度人群计数模型被提出（如图2所示），这些方法主要关注如何获取更好的人群特征用于描述更复杂人群，例如多尺度、严重遮挡和不均匀分布的人群。文献[1]首次提出将深度卷积神经网络用于人群计数，该方法基于深度卷积特征同时回归总人数和人群密度图。这种端到端的多任务学习方法法相比于传统方法具有准确率高和鲁棒性好的优点，但是对于多尺度的行人和严重遮挡问题效果并不理想。针对这些复杂的问题，文献[2]提出一种多列的深度卷积神经网络模型（Multi-column Convolutional neural network, MCNN）。在MCNN中，不同列实际上是具有不同卷积核的子网络，理论上不同子网络可以处理不同尺度的行人。通过大量实验验证，MCNN在处理多尺度的行人和严重遮挡问题时具有更好的效果。文献[3]进一步提出一种转换网络（Switching Convolutional Neural Network, Switch-CNN），该网络使用了几个卷积核大小和深度不同的CNN。Switch-CNN首先将图像分成多个图像块，然后根据图像块的内容信息来选择合适的CNN网络进行人群密度估计。Switch-CNN。该方法进一步提升了人群计数的准确率和对多尺度、遮挡的鲁棒性。然而由于显存和人群数据集规模的限制，人群网络的宽度和深度的增加是有限度的。当人群数据集比较小时，很深或很宽的人群模型的训练变得极其困难，很容易过拟合。

3. 集成学习

模型的回归误差可以被分解成偏置（Bias）和方差（Variance）。当模型出现过拟合问题时一般伴随着低偏置和高方差现象。集成学习一般通过显著减小方差来提高单一模型的泛化能力。基于这个角度，我们提出利用深度集成学习来提高人群计数的性能。

2f9bd9c3fbf90f7444f16330278c1401a1233649

图 2 当前深度人群计数模型

本文旨在解决以下两个技术难点：1）如何训练一组有足够多样性（Diversity）的深度回归器。文献[4]证明, 好的集成学习系统往往有着很强的多样性。2）如何有效地训练深度集成学习系统。传统的集成学习一般会独立的训练多个分类或回归器。除了低效率的缺陷以外，由于不同的回归器彼此之间没有限制，产生的回归器之间会有很强的相关性，进而降低了模型整体的多样性，从而导致模型抑制过拟合的能力受限。

4. 深度负相关学习

我们首次提出将负相关学习的思想应用在深度学习模型中。由于深度学习模型的参数众多，

b10ff21c14ca66c1d4af1ebad27228c806454464

图3 传统集成学习和负相关学习

同时训练多个深度学习模型往往需要很多工程技巧并且效率低下。因此，我们要解决的关键问题是如何在不增加模型参数规模的情况下得到深度负相关学习模型。我们想要达到两个目的：1）训练单个网络得到多个有足够多样性的输出。2）不增加网络的参数规模。我们提出的方案是对深度卷积模型最后一层的特征图进行分组，然后不同的输出连接不同的分组，这相当于同时训练了多个弱回归器，最终得到一个强的回归器。我们通过使用已有的组卷积（Group Convolution）实现提出的方案。提出的网络模型如图4所示。在我们设计的系统中，我们利用文献[5]的方式同时训练多个回归器并加入约束来减弱回归器之间的相关性。我们的方法有效的增强了模型整体的多样性，从而提高了模型抑制过拟合的能力。

5. 实验及结果

f42483ec3804b72a80c6815b28de2c2d215f5501
图4 深度负相关学习模型

实验使用了三个标准人群计数数据集：UCF_CC_50、Shanghaitech和WorldExpo’10。实验结果表明提出的方法相比于已有的方法具有更高的准确率。

c8e3405392229b3b7ecd3bf4ca06b967b001b0cf

图 5 定性实验结果

76f6ed640734cc41c5a463efd63f5c74fbc20e0d

图6 定量实验结果

6. 参考文献

[1] Zhang C, Li H, Wang X, et al. Cross-scene crowd counting via deep convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 833-841.

[2] Zhang Y, Zhou D, Chen S, et al. Single-image crowd counting via multi-column convolutional neural network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 589-597.

[3] Sam D B, Surya S, Babu R V. Switching convolutional neural network for crowd counting[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017, 1(3): 6.

[4] Brown, Gavin, Jeremy L. Wyatt, and Peter Tiňo. "Managing diversity in regression ensembles." Journal of machine learning research 6.Sep (2005): 1621-1650.

[5] Liu Y, Yao X. Ensemble learning via negative correlation[J]. Neural networks, 1999, 12(10): 1399-1404.

[6] Shi Z, Zhang L, Liu Y, et al. Crowd Counting With Deep Negative Correlation Learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5382-5390.

【技术短文】基于深度负相关学习的人群计数方法

热门文章

最新文章

相关课程

相关电子书

相关实验场景