PTAV:实时高精度目标追踪框架 | ICCV 2017论文解读

简介:

论文动机

目标追踪是视频分析的基本任务,比目标识别更为复杂:目标追踪可以把每一帧看作单独的图片,再进行识别,但目标追踪不会这样做,因为没有考虑视频帧之间的冗余信息,效率低且慢。

目标追踪一直有两大阵营,CF 相关滤波和 CNN,当然也可以 CF+CNN 融合。

本文基于以下动机: 

1. 物体运动时,大部分时间运动平缓,外观改变较慢。但是对于偶然发生的剧烈运动,需要复杂信息处理,需要单独验证。 

2. CV 领域已经普及多线程计算,尤其 SLAM(Simultaneous localization and mapping、同步定位于地图构建)领域。PTAM 算法的一个关键观点是每一帧不是有必要构建地图。对于目标追踪而言,每一帧图片也不需要单独的验证。 

3. tracking performance 和 efficiency 之间需要达到一种平衡。 

论文将 tracking 过程分解为两个并行但是相互协作的部分:一个用于快速的跟踪(fast tracking),另一个用于准确的验证(accurate verification)。 

其实作者之前发布的论文版本 [1] 已被 ICCV 2017 录用,此版本在原文基础上做了进一步的修订。本文所有讨论以 2018 年 1 月 在 arXiv 上发布的版本为准

该版本在原文基础上做了以下改进: 

1. 使用更具有鲁棒性的跟踪器(Staple)提升性能。 

2. 动态目标模板池用于自适应验证,放置目标外观的变化。 

3. PTAV 的 V 和 T 进行了多方面验证,比如 T 使用 VGGNet 和 AlexNet ,V 使用 KCF、fDSST 和 Staple。 

4. 使用更多实时性算法和基准,进行更彻底实验验证和分析。

论文模型

PTAV 算法架构包括三部分:Base Tracker T,Base Verifier V,以及它们之间的协调环节。

对于 T,论文选择的是 Staple 算法 [2]。验证环节 V 则选择采用 Siamese network 验证目标之间的相似性。对于协调环节,T 在合适的频率发送结果给 V,保证足够的时间验证。

为了改善 PTAV 的精度和速率,论文使用 k 均值聚类用于保持动态目标模板池用于自适应验证。

630022183b542c88ee8c70a1db3b03fa4203710a

实验

论文的实验数据详实,在主要数据集 OTB2015,TC128,UAV20L 和 VOT2016 上均和典型算法进行了对比。

从精度和实时性考虑各个模型,如图所示,OTB2015 数据集显示效果。

2742ceaa3e6bc4e0652bbae22df5f5c7c6a6fb61

总结

PTAV 的假设是大部分时间目标运动平滑,位置改变很慢。而较难的情况是运动的无规律性。论文提出的 verifying 时刻并不一定是运动改变的时刻,具有偶然性,所以对“打架斗殴”等运动剧烈的情况会失败。10 帧更新速率对 verifying 不是最好的选择。 

对于同样视频序列处理的 video segmentation,可以同样考虑。因为视频的逐帧操作比较耗费时间,这种间隔性的验证可大量节约资源。但是,对于剧烈变化的活动,更新会滞后。是否存在自使用速率变化的方法,这样的坑可以继续填。


原文发布时间为:2018-03-20

本文作者:陈泰红

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
3月前
|
机器学习/深度学习 传感器 算法
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
|
4月前
|
存储 算法 算法框架/工具
【opencv】计算机视觉:实时目标追踪
【opencv】计算机视觉:实时目标追踪
|
4月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
301 1
|
8月前
|
机器学习/深度学习 并行计算 算法
DNAscope白皮书: 基于机器学习的高精度胚系变异检测流程
DNAscope白皮书: 基于机器学习的高精度胚系变异检测流程
61 0
DNAscope白皮书: 基于机器学习的高精度胚系变异检测流程
|
8月前
|
机器学习/深度学习 算法 机器人
PETS:伯克利大神Sergey Levine指导的概率集成轨迹采样算法
PETS:伯克利大神Sergey Levine指导的概率集成轨迹采样算法
|
10月前
|
机器学习/深度学习 编解码 算法
SiamRPN、SiamMask、UpdateNet、SiamAttn…你都掌握了吗?一文总结目标追踪必备经典模型(二)
SiamRPN、SiamMask、UpdateNet、SiamAttn…你都掌握了吗?一文总结目标追踪必备经典模型(二)
129 0
|
11月前
|
传感器 机器学习/深度学习 人工智能
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
147 0
|
11月前
|
机器学习/深度学习 Web App开发 自动驾驶
驾驭白夜场景、刷新多个SOTA,苏黎世联邦理工用高效时序建模提升多目标追踪与分割
驾驭白夜场景、刷新多个SOTA,苏黎世联邦理工用高效时序建模提升多目标追踪与分割
|
11月前
|
机器学习/深度学习 算法 计算机视觉
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
172 0
|
11月前
|
机器学习/深度学习 编解码 人工智能
阿里团队新作 | AFFormer:利用图像频率信息构建轻量化Transformer语义分割架构
阿里团队新作 | AFFormer:利用图像频率信息构建轻量化Transformer语义分割架构
357 0