CVPR精彩论文解读:对当下主流CNN物体检测器的对比评测

简介:

雷锋网(公众号:雷锋网) AI科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研发工程师李俊对此次大会收录的Speed/Accuracy trade-offs for modern convolutional object detectors 一文进行的解读。

如何选择物体检测器

——对当下主流CNN物体检测器的评测

自2014年RCNN被提出以来,基于卷积神经网络的物体检测已经成为主流。Faster RCNN、SSD、YOLO、 R-FCN等诸多检测算法百花齐放,每种方法都在各自的维度上达到当时的state-of-the-art。而由于各种不同方法在实验时所使用的特征提取网络、图像分辨率、软硬件架构等诸多因素不尽相同,目前对于不同的检测方法一直缺乏一个实际的公平比较。这篇论文主要讨论多种物体检测算法在速度、精度做不同权衡时的表现,进而指导实际应用中对物体检测器的选择。

在这篇文章里面我们主要讨论以下几点:

  • 本文为什么要做检测器对比

  • 如何对不同检测器做对比

  • 对比的结论是什么

  • 总结与思考

1.为什么要做检测器对比

近年来由于CNN的发展与应用,物体检测领域得到了快速发展,如Faster RCNN, R-FCN, Multibox, SSD, YOLO等算法已经成功应用于实际产品中,并在各种计算设备上展现出可观的性能。在实际应用中,由于不同的场景下有不同的限制和需求,需要根据实际情况权衡选择最适合的检测方法。这就需要我们对不同检测器的性能有更客观的认识。

然而,从这些算法的原始文章很难直接获得对不同算法在多个维度的对比。一方面,不同方法的原始论文在特征提取网络、框匹配方式、框的表示、回归的Loss函数选择等方面存在差异(如下表所示)。另一方面,我们缺乏客观的评价标准:Pascal VOC或者COCO数据集上标准的评价准则mAP只能反映精度,而比赛获胜的方法通常会采用多模型融合,如multi-crop和multi-scale等方法来牺牲时间提升精度。

CVPR精彩论文解读:对当下主流CNN物体检测器的对比评测

我们需要系统客观地对不同算法在速度、精度、空间占用等多个维度进行评测,以用于指导选择在不同实际情景下所需要的最佳物体检测器。

2.如何对不同检测器做对比

本文对比了Faster RCNN, SSD和R-FCN三种方法,每种方法都基于TensorFlow的实现,对比单模型、单次前传的性能。每一种方法都首先在TensorFlow中复现了原论文的报告精度,然后在此基础上进行修改对比。具体地:特征提取器采用了VGG16, Resnet101, Inception V2, Inception V3, Inception Resnet V2, MobileNet等多个模型;Faster RCNN和R-FCN选用同样的feature map层来预测region proposal;SSD在最上层的feature map基础上加入多个2倍大小的额外层做预测;Faster RCNN和R-FCN的proposal数量从10变化到300;本文同时探索了feature map的stride从32变化到16、8的影响;保持参数量不变;匹配方式统一为二分图,匹配框统一encode为[10*x_c/w_a, 10*y_c/h_a, 5*logw, 5*logh],回归的loss统一设置为Smooth L1 Loss;输入图像分辨率统一resize到短边为600,同时对比了短边为300分辨率的情况;计算时间包含了一次forward加上post-processing的时间。

3. 对比的结论是什么

对比不同方法的速度-精度图如下:

CVPR精彩论文解读:对当下主流CNN物体检测器的对比评测

Faster RCNN使用更少的proposal,可以显著加速但仅仅小幅度影响了精度。另外SSD受feature extractor的影响没有Faster RCNN和R-FCN大。最后本文指出了满足速度要求情况下的最佳速度精度权衡的物体检测器。如下图所示:

CVPR精彩论文解读:对当下主流CNN物体检测器的对比评测

最快的模型为低分辨率下MobileNet+SSD,精度最高网络为Inception Resnet v2 + 300 proposal Faster RCNN。速度精度权衡到最佳的模型为Resnet 101 + 100 proposal Faster RCNN和Resnet 101 + 300 proposal R-FCN。

4.总结与思考

论文的价值体现在,在相对公平的环境中对比了当前最好的一些检测算法,通过大量不同配置的对比,对于实际应用中检测任务的方法选择给出了一定的指导。实际应用中Faster RCNN和R-FCN可以达到更好的速度与精度权衡折衷, 两步迭代的方案一边保证了高recall, 一边保证高precision。另外不考虑运行时间的话Faster RCNN仍然是刷榜的首选。

CVPR 作者现场QA:

1. 不考虑时间,当参数量相同时,哪种方法的精度更高?

A:Faster RCNN > R-FCN > SSD,其中SSD的主要优势是快(同样参数量情况下)。

2.    为什么two-stage的方案(Faster RCNN、R-FCN)会比SSD的精度更高?

A:Faster RCNN第一步关注proposal的效果,第二步关注refine的效果。提取的ROI区域会有一个zoom in的效果,因而会比SSD混杂在一起单步学习精度更高。

论文地址:https://arxiv.org/abs/1611.10012

雷锋网版权文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

文章点评:

表情 同步到新浪微博

融资后又有大动作,Geek+宣布进入日本市场

本文作者:赵青晖 2017-08-08 18:39
导语:Geek+位于日本的ACCA项目正式进入日本市场,据了解,该项目成为中国物流机器人首个海外的「货到人」机器人仓库。

雷锋网(公众号:雷锋网)获悉,中国机器人公司Geek+(极智嘉)宣布,公司位于日本的ACCA项目正式进入日本市场,据了解,该项目成为中国物流机器人首个海外的「货到人」机器人仓库。

融资后又有大动作,Geek+宣布进入日本市场

本次Geek+海外项目的用户ACCA是日本一家知名的电商服务企业,为客户提供完善的端到端第三方电商服务,主要面向时尚行业。

ACCA与超过400家服装品牌建立了长期合作,拥有成熟强大的物流体系,支持日本国内和跨境电商业务。ACCA的服务客户包括PUMA,UGG等国际知名鞋服厂商。该公司对于智能物流的潜在需求也非常庞大。

融资后又有大动作,Geek+宣布进入日本市场

这一年来,物流机器人势头强劲,占据了各大媒体的头条,众多知名企业纷纷开始部署机器人仓库,应用行业覆盖领域包括电商、零售、邮政、医药、3PL等诸多领域。物流机器人火了,“智能物流”更是成为火爆一时的热词。

Geek+也是国内该领域的明星创业公司之一,由于物流机器人领域近年来发展势头非常迅猛,也受到了众多企业和资本的关注。就在上个月,Geek+公司宣布完成B轮融资,融资额为6000万美元。本轮融资由全球知名的私募股权投资机构美国华平投资集团领投,原有股东火山石资本等跟投。该轮融资也刷新了全球范围内物流机器人领域的最高单笔融资记录。

作为机器人智能物流行业的明星创业公司,率先开拓海外市场,也预示着该领域未来的发展前景可期。本次进军日本,是该公司拓展国际市场的第一站,Geek+的创始人兼CEO郑勇表示,未来会加速业务的国际化进程。

本文作者:思颖

本文转自雷锋网禁止二次转载,原文链接


相关文章
|
3月前
|
机器学习/深度学习 网络架构 计算机视觉
CNN经典网络模型之GoogleNet论文解读
GoogleNet,也被称为Inception-v1,是由Google团队在2014年提出的一种深度卷积神经网络架构,专门用于图像分类和特征提取任务。它在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比赛中取得了优异的成绩,引入了"Inception"模块,这是一种多尺度卷积核并行结构,可以增强网络对不同尺度特征的感知能力。
|
11月前
|
机器学习/深度学习 人工智能 数据可视化
【Pytorch神经网络实战案例】20 基于Cora数据集实现图卷积神经网络论文分类
CORA数据集里面含有每一篇论文的关键词以及分类信息,同时还有论文间互相引用的信息。搭建AI模型,对数据集中的论文信息进行分析,根据已有论文的分类特征,从而预测出未知分类的论文类别。
351 0
|
机器学习/深度学习 算法 数据库
R-CNN论文详解(入门目标检测必读)
R-CNN论文详解(入门目标检测必读)
R-CNN论文详解(入门目标检测必读)
|
11月前
|
存储 算法 计算机视觉
【检测|RCNN系列-5】Light-Head R-CNN的稳精度、提速度之路(附论文获取方式)
【检测|RCNN系列-5】Light-Head R-CNN的稳精度、提速度之路(附论文获取方式)
99 0
|
11月前
|
计算机视觉
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(二)
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(二)
52 0
|
11月前
|
算法 计算机视觉 网络架构
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(一)
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(一)
137 0
|
11月前
|
机器学习/深度学习 存储 编解码
计算机视觉论文速递(七)FAN:提升ViT和CNN的鲁棒性和准确性
在本文中研究了Self-Attention在学习鲁棒表征中的作用。本研究是基于Vision Transformer中新出现的Visual Grouping的特性进行深入研究的,Visual Grouping也表明Self-Attention可能是通过改进的中层表征来促进鲁棒性。
102 0
|
11月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉论文速递(四)Dynamic Sparse R-CNN:Sparse R-CNN升级版,使用ResNet50也能达到47.2AP
 首先,Sparse R-CNN采用一对一标签分配方案,其中匈牙利算法对每个Ground truth只匹配一个正样本。这种一对一标签分配对于学习到的proposal boxes和Ground truth之间的匹配可能不是最佳的。为了解决这一问题,作者提出了基于最优传输算法的动态标签分配(DLA),在Sparse R-CNN的迭代训练阶段分配递增的正样本。随着后续阶段产生精度更高的精细化proposal boxes,在后续阶段对匹配进行约束,使其逐渐松散。
120 0
|
11月前
|
机器学习/深度学习 算法 数据挖掘
深度学习论文阅读目标检测篇(三):Faster R-CNN《 Towards Real-Time Object Detection with Region Proposal Networks》
 最先进的目标检测网络依靠region proposal算法来推理检测目标的位置。SPPnet[1]和Fast R-CNN[2]等类似的研究已经减少了这些检测网络的运行时间,使得region proposal计算成为一个瓶颈。在这项工作中,我们引入了一个region proposal网络(RPN),该网络与检测网络共享整个图像的卷积特征,从而使近乎零成本的region proposal成为可能。
257 0
|
机器学习/深度学习 数据挖掘 计算机视觉
经典神经网络 | Faster R-CNN 论文解析
经典神经网络 | Faster R-CNN 论文解析
经典神经网络 | Faster R-CNN 论文解析

热门文章

最新文章