数据不够,Waymo用GAN来凑:生成逼真相机图像,在仿真环境中训练无人车模型

简介: 云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 疫情当下,Waymo等自动驾驶厂商暂时不能在现实世界的公共道路上进行训练、测试了。 不过,工程师们还可以在GTA,啊不,在仿真环境里接着跑车。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!


疫情当下,Waymo等自动驾驶厂商暂时不能在现实世界的公共道路上进行训练、测试了。

不过,工程师们还可以在GTA,啊不,在仿真环境里接着跑车。

1

模拟环境里的场景、对象、传感器反馈通常是用虚幻引擎或者Unity这样的游戏引擎来创建的。

为了实现逼真的激光雷达等传感器建模,就需要大量的手动操作,想要获得足够多、足够复杂的数据,可得多费不少功夫。

数据不够,无人车标杆Waymo决定用GAN来凑。

这只GAN,名叫SurfelGAN,能基于无人车收集到的有限的激光雷达和摄像头数据,生成逼真的相机图像。

用GAN生成的数据训练,还是训练自动驾驶汽车,这到底靠谱不靠谱?

SurfelGAN

那么首先,一起来看看SurfelGAN是怎样炼成的。

2

主要有两个步骤:

首先,扫描目标环境,重建一个由大量有纹理的表面元素(Surfel)构成的场景。

然后,用相机轨迹对表面元素进行渲染,同时进行语义和实例分割。接着,通过GAN生成逼真的相机图像。

表面元素场景重建

为了忠实保留传感器信息,同时在计算和存储方面保持高效,研究人员提出了纹理增强表面元素地图表示方法。

表面元素(surface element,缩写Surfel)适用于动态几何建模,一个对象由一组密集的点或带有光照信息的面元来表示。

研究人员将激光雷达扫描捕获的体素,转换为具有颜色的表面元素,并使其离散成 k×k 的网格。

3

由于光照条件的不同和相机相对姿势(距离和视角)的变化,每个表面元素在不同的帧中可能会有不同的外观,研究人员提出,通过创建一个由 n 个不同距离的 k×k 网格组成的编码簿,来增强表面元素表示。

在渲染阶段,该方法根据相机姿势来决定使用哪一个 k×k 块。

4

图中第二行,即为该方法的最终渲染效果。可以看到,与第一行基线方法相比,纹理增强表面元素图消除了很多伪影,更接近于第三行中的真实图像。

为了处理诸如车辆之类的动态对象,SurfelGAN还采用了Waymo开放数据集中的注释。来自目标对象的激光雷达扫描的数据会被积累下来,这样,在模拟环境中,就可以在任意位置完成车辆、行人的重建。

通过SurfelGAN合成图像

完成上面的步骤,模拟场景仍存在几何形状和纹理不完美的问题。

这时候,GAN模块就上场了。

训练设置了两个对称的编码-解码生成器,从Sufel图像到真实图像的GS→I,以及反过来从真实图像到Sufel图像的GI→S。同样也有两个判别器,分别针对Sufel域和真实域。

5

上图中,绿色的线代表有监督重建损失,红色的线代表对抗损失,蓝线/黄线为周期一致性损失。

输入数据包括配对数据和未配对数据。其中,未配对数据用来实现两个目的:

  • 提高判别器的泛化性能;
  • 通过强制循环一致性来规范生成器。

另外,由于表面元素图像的覆盖范围有限,渲染出的图像中包含了大面积的未知区域,并且,相机和表面元素之间的距离也引入了另一个不确定因素,研究人员采用了距离加权损失来稳定GAN的训练。

具体而言,在数据预处理过程中,先生成一个距离图,然后利用距离信息作为加权稀疏,对重构损失进行调节。

实验结果

最后,效果如何,还是要看看实验结果。

研究人员们基于Waymo Open Dataset(WOD)进行了实验。该数据集包括798个训练序列,和202个验证序列。每个序列包含20秒的摄像头数据和激光雷达数据。此外,还包括WOD中真的对车辆、行人的注释。

他们还从WOD中衍生出了一个新的数据集——Waymo Open Dataset-Novel View。在这个数据集中,根据相机扰动姿势,研究人员为原始数据集里的每一帧创建了新的表面元素渲染。

此外,还有9800个100帧短序列,用于真实图像的无配对训练。以及双摄像头-姿势数据集(DCP),用于测试模型的真实性。

6

可以看到,在检测器的鉴定下,SurfelGAN生成的最高质量图像将AP@50从52.1%拉升到了62.0%,与真实图像的61.9%持平。

7

Waymo认为,这样的结果为将来的动态对象建模和视频生成模拟系统奠定了坚实的基础。

华人一作

论文的第一作者,是Waymo的华人实习生Zhenpei Yang,他于2019年6月至8月间在Waymo完成了这项研究。

Zhenpei Yang本科毕业于清华大学自动化系,目前在德州大学奥斯汀分校攻读博士,研究方向是3D视觉和深度学习。

8

Waymo首席科学家Dragomir Anguelov,也是论文的作者之一。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-06-15
本文作者:鱼羊
本文来自:“量子位公众号”,了解相关信息可以关注“公众号QbitAI”

相关文章
|
2月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
50 1
|
2月前
|
机器学习/深度学习 数据采集 监控
基于yolov2深度学习网络的车辆检测算法matlab仿真,包括白天场景和夜晚场景
基于yolov2深度学习网络的车辆检测算法matlab仿真,包括白天场景和夜晚场景
|
4月前
|
机器学习/深度学习 人工智能 PyTorch
极智AI | GAN应用于玻璃表面水珠样本生成
大家好,我是极智视界,本文介绍一下 GAN 应用于玻璃表面水珠样本生成的方法。
45 0
极智AI | GAN应用于玻璃表面水珠样本生成
|
4月前
|
机器学习/深度学习 算法 决策智能
微美全息开发RPSSC技术在高光谱图像分类领域取得重要突破
随着高光谱遥感技术的发展,对于高光谱图像的更加精准的处理需求逐渐增加。在农业、环境监测、资源管理等领域,对高光谱图像进行准确分类是实现智能决策和资源优化利用的基础。
|
9月前
|
机器学习/深度学习 传感器 算法
基于LSTM深度学习网络的人员行走速度识别matlab仿真,以第一视角视频为样本进行跑或者走识别
基于LSTM深度学习网络的人员行走速度识别matlab仿真,以第一视角视频为样本进行跑或者走识别
|
11月前
|
编解码 人工智能 自然语言处理
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
101 0
|
11月前
|
编解码 人工智能 自然语言处理
扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术
扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术
180 0
|
11月前
|
机器学习/深度学习 编解码 数据可视化
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
147 0
|
11月前
|
机器学习/深度学习 传感器 固态存储
基于深度学习的鱼眼图像中的停车位识别和分类(毕业设计+代码)
基于深度学习的鱼眼图像中的停车位识别和分类(毕业设计+代码)
142 0
|
机器学习/深度学习 传感器 监控
基于YOLOv5的停车位检测系统(清新UI+深度学习+训练数据集)
基于YOLOv5的停车位检测系统(清新UI+深度学习+训练数据集)
454 0