ECCV18 | 谷歌普林斯顿提出首个端到端立体双目系统深度学习方案

简介: 本文是计算机视觉顶会ECCV 2018录取论文中备受关注的一篇,来自谷歌&普林斯顿大学的研究人员提出了第一个主动双目立体成像系统的深度学习解决方案,在诸多具有挑战性的场景中展示出最先进的结果。

本文是计算机视觉顶会ECCV 2018录取论文中备受关注的一篇,来自谷歌&普林斯顿大学的研究人员提出了第一个主动双目立体成像系统的深度学习解决方案,在诸多具有挑战性的场景中展示出最先进的结果。

深度传感器(Depth sensors)为许多难题提供了额外的3D信息,如非刚性重构(non-rigid reconstruction)、动作识别和参数跟踪,从而给计算机视觉带来了革新。虽然深度传感器技术有许多类型,但它们都有明显的局限性。例如,飞行时间系统(Time of flight systems)容易遭受运动伪影和多路径的干扰,结构光(structured light )容易受到环境光照和多设备干扰。在没有纹理的区域,需要昂贵的全局优化技术,特别是在传统的非学习方法中, passive stereo很难实现。

主动双目立体视觉(Active stereo)提供了一种潜在的解决方案:使用一对红外立体相机,使用一个伪随机模式,通过图案化的红外光源对场景进行纹理化(如图1所示)。通过合理选择传感波长,相机对捕获主动照明和被动光线的组合,提高了结构光的质量,同时在室内和室外场景中提供了强大的解决方案。虽然这项技术几十年前就提出了,但直到最近才出现在商业产品中。因此,从主动双目立体图像中推断深度的先前工作相对较少,并且尚未获得大规模的ground truth训练数据。

image

在主动双目立体成像系统中必须解决几个问题。有些问题是所有的双目系统问题共有的,例如,必须避免匹配被遮挡的像素,这会导致过度平滑、边缘变厚和/或轮廓边缘附近出现飞行像素。但是,其他一些问题是主动双目系统特有的,例如,它必须处理非常高分辨率的图像来匹配投影仪产生的高频模式;它必须避免由于这些高频模式的其他排列而产生的许多局部最小值;而且它还必须补偿附近和远处表面投影图案之间的亮度差异。此外,它不能接受ground truth深度的大型主动双目数据集的监督,因为没有可用的数据。

在这篇论文中,我们介绍了ActiveStereoNet,这是主动双目立体成像系统(active stereo systems)的第一个深度学习解决方案。由于缺乏ground truth,我们的方法是完全自我监督的,但它产生了精确的深度,子像素精度是像素的1/30;它没有遭到常见的过度平滑问题,保留了边缘,并且明确地处理了遮挡。

image

我们引入了一种新的重构误差(reconstruction loss),它对噪声和无纹理补丁(patches)更具稳健性,并且对光照的变化保持不变。我们提出的损失是通过基于窗口的成本聚合和自适应的支持权重方案优化的。这种成本聚合使边缘保留并使损失函数平滑,这是使网络达到引人注目的结果的关键。

最后,我们展示了预测无效区域(如遮挡)的任务是如何在没有ground truth的情况下完成的,这对于减少模糊至关重要。我们对真实数据和合成数据进行了大量的定量和定性的评估,证明了该技术在许多具有挑战性的场景中得到了state-of-the-art的结果。

image

ActiveStereoNet的架构如图2所示。我们使用一个两阶段的网络,其中一个低分辨率的成本体积被构建来推断第一视差估计。一个双线性上采样后的残差网络用来预测最终视差图。底部的Invalidation Network也被端到端地训练来预测置信度图。

image

我们提出的loss对于遮挡更强健,它不依赖于像素的亮度,也不受低纹理区域的影响。

实验和结果

我们进行了一系列实验来评估ActiveStereoNet(ASN)。除了分析深度预测的准确性,并将其与以前的成果相比之外,我们还提供消融研究的结果,以研究拟损失的每个组成部分会对结果造成什么影响。在补充材料中,我们还评估了我们提出的self-supervised loss 方法在passive (RGB) stereo中的适用性,该方案表现出更高的泛化能力,在许多基准测试中达到了令人印象深刻的结果。

双目立体匹配评估

在本节中,我们使用传统的双目立体匹配指标(如抖动和偏差),定性、定量地将我们的方法在实际数据的实验中与最先进的立体算法进行比较。

抖动与偏差

假设某立体声系统的基线标准为b,焦距为f,子像素视差精度为δ,则视差精度的深度误差e与深度Z的平方成正比。由于视差误差对深度的影响是可变的,一些简单的评估度量(如视差的平均误差)不能有效地反映估计深度的质量。而我们的方法首先标出深度估计的误差,然后计算视差中的相应误差。

为了评估ASN的子像素精度,我们记录了相机在平坦的墙壁前记录的100帧图像,相机距离墙壁的范围从500毫米到3500毫米不等,还有100帧,然后让相机成50度角朝向墙壁,再记录100帧,用来评估倾斜表面上的图像。在本例中,我们将得到的结果与高鲁棒性的平面拟合获得的“ground truth”进行对比评估。

image

我们的方法的数据偏差降低了一个数量级,子像素精度为0.03像素,而且抖动非常低(参见文本)。我们还展示了距离墙壁3000毫米时,多种方案下预计出现的点云。请注意,尽管距离较远(3米),但其他方法相比,我们的结果噪音更低。

为了表示精度,我们将偏差计算为预测深度和真实值之间的平均误差l1。图5所示为关于我们所用的方法的深度偏差和传感器输出、现有最佳技术的局部立体化方法(PatchMatch,HashMatch),以及我们所使用的最先进的非监督式训练出的模型,并对点云做了表面法线着色处理的可视化操作。我们的系统在距墙壁全部距离上的性能都明显优于其他方法,并且其误差不会随着深度增加而显着增加。我们系统对应的子像素视差精度为1/30像素,这是通过使用上述方程(也在图5中给出)拟合曲线而获得的。这比其他方法的精度(不高于0.2像素)精确一个数量级。

为了表示噪声,我们将抖动(Jitter)计算为深度误差的标准偏差。图5表明,与其他方法相比,我们的方法在几乎每个深度上都能实现最低的抖动。

与现有最优技术的比较

在具有挑战性的场景中对ASN的更多定性评估如图6所示。可以看出,像PatchMatch和HashMatch这样的局部方法无法处理有源光和无源光的混合照明场景,因此会产生不完整的差异图像(缺失像素显示为黑色)。使用半全局方案的传感器输出更适合此类数据,但仍然容易受到图像噪声的影响(请注意第四列中的噪声结果)。相比之下,我们的方法可以产生完整的视差图并保留清晰的边界。

image

关于真实序列的更多例子如图8(右)所示,其中我们给出了由表面法线着色的点云。我们的输出保留了所有细节,噪音很低。相比之下,我们使用自监督方法进行训练的网络产生了过度平滑的输出。

image

我们的结果也不存在纹理复制问题,这很可能是因为我们使用成本量来明确地对匹配函数进行了建模,而不是直接从像素密度中学习。即使训练数据主要是从办公室环境中捕获的,我们仍然发现,ASN很好地涵盖了各种测试场景,如起居室、游戏室,餐厅和各式各样的目标,比如人、沙发、植物、桌子等。具体如图所示。

讨论、局限性和未来方向

我们在本文中介绍了ActiveStereoNet(ASN),这是第一种用于主动双目立体成像系统的深度学习方法。我们设计了一个新的损耗函数来处理高频模式,照明效果和像素遮挡的情况,以解决自我监督设置中的主动立体声问题。我们的方法能够进行非常精确的重建,子像素精度达到0.03像素,比其他有源立体匹配方法精确一个数量级。与其他方法相比,ASN不会产生过于平滑的细节,可以生成完整的深度图,保留有清晰的边缘,没有乱飞的像素。而失效网络作为一个副产物,能够得出可用于需要遮挡处理的高级应用的视差置信度图。大量实验显示,使用NVidia Titan X显卡和最先进的方法,用于不同具有挑战性场景的处理任务,每帧运行平均时间为15ms。

局限性和未来方向

尽管我们的方法产生了令人信服的结果,但由于成本量的低分辨率,仍然存在透明对象和薄结构的问题。在未来的工作中,我们将提出解决方案来处理更高级任务的实施案例,比如语义分割。

原文发布时间为:2018-08-08
本文来自云栖社区合作伙伴“ 计算机视觉life”,了解相关信息可以关注“ 计算机视觉life

相关文章
|
1天前
|
机器学习/深度学习 传感器 边缘计算
基于深度学习的图像识别技术在自动驾驶系统中的应用
【5月更文挑战第3天】 随着人工智能技术的飞速发展,深度学习已经成为推动技术创新的关键力量。特别是在图像识别领域,深度学习技术通过模仿人脑处理视觉信息的方式,显著提升了机器识别和理解图像的能力。本文主要探讨了深度学习在自动驾驶系统中图像识别的应用,包括车辆检测、行人识别、交通标志识别等关键功能,并分析了当前的挑战及未来的发展趋势。
|
1天前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【5月更文挑战第2天】 随着人工智能技术的飞速发展,深度学习已经成为推动多个科技领域进步的关键力量。特别是在图像识别技术方面,深度学习的应用已经极大地改善了算法的准确性和效率。本文将探讨深度学习在图像识别中的核心机制,并重点分析其在自动驾驶系统中的具体应用,包括车辆检测、行人识别以及交通标志识别等关键技术点。通过综合现有研究成果与最新技术动态,本文旨在为读者提供一个关于如何利用深度学习提升自动驾驶系统性能的全面视角。
|
1天前
|
机器学习/深度学习 自动驾驶 算法
基于深度学习的图像识别在自动驾驶系统中的应用
【5月更文挑战第2天】 随着人工智能技术的飞速发展,深度学习在图像识别领域取得了突破性进展。这些技术的应用不仅局限于日常的智能设备中,更在自动驾驶系统的发展中扮演着关键角色。本文旨在探讨深度学习算法如何提升自动驾驶汽车的图像识别能力,以及这一进步如何促进自动驾驶系统的整体性能和安全性。通过分析最新的研究成果和实际案例,我们阐述了深度学习模型在处理复杂交通场景中的优势,并讨论了未来可能的发展趋势。
|
3天前
|
机器学习/深度学习 自动驾驶 安全
基于深度学习的图像识别技术在自动驾驶系统中的应用网络安全与信息安全:防御前线的关键技术与意识
【4月更文挑战第30天】随着人工智能技术的飞速发展,深度学习已成为推动多个技术领域革新的核心力量。特别是在图像识别领域,深度学习模型已展现出超越传统算法的性能。在自动驾驶系统中,准确的图像识别是确保行车安全和高效导航的基础。本文将探讨深度学习在自动驾驶中图像识别的应用,分析关键技术挑战,并提出未来的发展方向。
|
3天前
|
机器学习/深度学习 自动驾驶 安全
深入理解操作系统内存管理:策略与实现基于深度学习的图像识别技术在自动驾驶系统中的应用
【4月更文挑战第30天】 在现代计算机系统中,操作系统的内存管理是确保系统高效、稳定运行的关键组成部分。本文将深入探讨操作系统中内存管理的多种策略及其实现机制,包括但不限于分页、分段和段页式结合等技术。我们将剖析内存分配的原理,讨论虚拟内存技术的实现以及它如何提供更大的地址空间并允许内存的交换。同时,我们还会涉及内存保护机制,它们是如何防止程序访问未授权的内存区域。最后,文中将对现代操作系统如Linux和Windows中的内存管理实践进行比较分析,以期给读者提供全面而深入的理解和参考。 【4月更文挑战第30天】 随着人工智能技术的飞速发展,深度学习已经
|
3天前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【4月更文挑战第30天】 随着人工智能技术的飞速发展,深度学习已成为推动技术创新的核心动力之一。特别是在图像识别领域,深度学习技术已经取得了显著的成就。本文旨在探讨基于深度学习的图像识别技术在自动驾驶系统中的应用,并分析了该技术对提升自动驾驶汽车环境感知能力的重要性。通过构建高效准确的深度神经网络模型,实现对道路场景中各种物体的快速识别与分类,从而为自动驾驶决策提供可靠的数据支持。
|
3天前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【4月更文挑战第30天】 随着人工智能技术的不断进步,深度学习在图像处理与分析方面取得了革命性的突破。尤其是在自动驾驶领域,基于深度学习的图像识别技术已经成为实现车辆环境感知的关键。本文将探讨深度学习模型如何改善自动驾驶系统中的图像识别任务,包括物体检测、分类及追踪,并分析这些技术对提高自动驾驶汽车安全性和可靠性的影响。我们还将讨论目前面临的挑战以及未来的发展趋势。
|
3天前
|
机器学习/深度学习 数据采集 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【4月更文挑战第30天】 本文深入探讨了深度学习技术在自动驾驾驶车辆图像识别系统中的应用,重点分析了卷积神经网络(CNN)的结构优化、训练策略和在实际场景中的部署问题。通过对比不同深度学习模型的性能表现,揭示了数据处理、模型泛化能力和实时性要求之间的平衡机制。文章不仅总结了现有技术的局限性,还提出了未来研究的方向,旨在为自动驾驶领域的技术进步提供理论支持和实践指南。
|
4天前
|
机器学习/深度学习 算法 计算机视觉
m基于Yolov2深度学习网络的智能零售柜商品识别系统matlab仿真,带GUI界面
MATLAB 2022a中展示了YOLOv2目标检测算法的仿真结果,包括多张检测图像。YOLOv2是实时检测算法,由卷积层和全连接层构成,输出张量包含边界框坐标和类别概率。损失函数由三部分组成。程序使用75%的数据进行训练,剩余25%作为测试集。通过ResNet-50预训练模型构建YOLOv2网络,并用SGDM优化器进行训练。训练完成后,保存模型为`model.mat`。
19 2
|
4天前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【4月更文挑战第29天】 本文深入探讨了深度学习技术在图像识别领域的最新进展,并重点分析了该技术如何被集成到自动驾驶系统中。通过对比传统机器学习方法,我们展示了深度学习在处理复杂视觉数据时的优势,包括其在高维数据处理、特征提取和模式识别方面的能力。文章还讨论了目前自动驾驶领域面临的主要挑战,如实时性要求、传感器融合以及环境适应性,并提出了几个创新的解决方案。最后,对当前技术的局限性进行了批判性分析,并对未来的发展趋势提供了展望。