备案控制台

开发者社区

开发者社区人工智能文章正文

中国女博士的「水淹食堂」大法：单目视频完美重建3D场景，画面毫无违和感

2020-05-06 691

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

一位程序员小哥，正在Facebook食堂愉快地准备喝咖啡。

突然，就被水淹了。

而另一位正好好坐着玩手机的同学，则猝不及防地遭遇了屋顶漏雪事件。

不过几秒钟的时间，不仅头发上覆上了一层雪，脚面都被积雪埋住了。

遭遇“灵异事件”的还有一只无辜的小猫咪。

它本乖乖坐在小桌板上专心卖萌，房间却突然暗了下来，还有奇怪的小光球开始绕着它转圈圈！

当事猫表示：当时我心里害怕极了。

看着受害猫惊（dan）慌（ding）的表情，兼此事件一时引得物议沸腾：

我们决定：走进科学。

而当我们剥开事实的真相，发现，这一切事件的“始作俑者”竟是——

来自华盛顿大学和Facebook的最新单目深度估计算法，已中SIGGRAPH 2020，将于下周在GitHub上开源。

单目视频深度估计

算法的核心思路，是结合单图像深度估计网络和传统的结构-运动重建法，使网络学会为指定视频生成几何一致的深度。

该方法整体设计架构如下。

输入单目视频，对一对相机位置不同的帧进行采样，然后，用预先训练好的单图像深度估计模型估计深度，得到初始深度图。

对这对图像，使用光流法前后向一致性检查建立对应关系。

接着，利用这些对应关系和相机位置提取三维几何约束。

将三维几何约束分解为两个损失：

空间损失
视差损失

通过标准反向传播，用这两个损失对深度估计网络的权重进行微调，以最小化多帧几何不一致性误差。

如此，只需要对视频中任意帧进行配对采样，就可以将这一过程扩展到整个视频，对单目视频中的所有像素进行几何一致的深度重建。

在研究人员的实验中，对于一个244帧的视频，用4个英伟达Tesla M40 GPU训练下来需要40分钟。

超过此前SOTA，各个数据集上表现稳定

在评估深度重构方法方面，已经有了很多数据集。

但论文作者认为，这些数据集或多或少存在一些问题——要么是合成的，要么是针对自动驾驶等特定领域的，要么是针对单幅图像或静态场景的视频的，并不能完美地评估他们方法有效性。

于是他们用手持摄像机做了一个自定义3D数据集，来进行评估。数据集由静态和物体运动量很小的动态场景组成，视频的分辨率为1920x1440像素，长度从119帧到359帧不等。

对比的对象是此前最先进的深度估计模型：传统的多视角立体视觉系统COLMAP、单图像深度估计模型Mannequin Challenge和MiDaS-v2、基于视频的深度估计模型WSVD(两帧)和 NeuralRGBD(多帧)。

评估的指标一共有三个，覆盖模型的“测光误差”（Es）、“（不）稳定性”（Ed）、“漂移程度”（Ep），都是反向指标，数值越小，证明模型效果更好。

从下图中可以看出，无论是静态场景还是动态场景，论文中提出的深度估计算法，在各个指标上都是最优。

从直观的结果中也能够看出效果的差异：

不仅精度和几何一致性更高，视觉效果也更加稳定。

此外，为了评估的完整性与公平性，他们还在三个公开数据集上，与这些模型进行了定量比较，分别是：TUM数据集、ScanNet数据集和KITTI 2015数据集。

下表展示的是ScanNet数据集上结果，论文中提出的方法虽然不是最优，但与最优算法的差距并不算大。

来自中国女学霸，本科毕业于上海交大

这一研究成果来自华盛顿大学、Facebook等研究机构，一共有5名学者参与。

一作名为罗璇，是华盛顿大学在读博士，2015年毕业于上海交大ACM班，是戴文渊等大神的直系学妹。

本科毕业之后，先后拿到加州伯克利大学、华盛顿大学等高校Offer，为了追求“虚拟视觉”而选择了华盛顿大学，这也是她从高中就开始关注的领域。

去华盛顿大学读博之后，她先后在迪士尼、谷歌等知名企业实习，当前的这一研究成果，是她在Facebook实习期间的研究成果。

第二作者是Jia-Bin Huang，弗吉尼亚理工学院助理教授，本科毕业于台湾国立交通大学。论文的其他三位作者，都来自Facebook，分别是Richard Szeliski、Kevin Matzen、Johannes Kopf。

关于这一研究，他们在结论部分提到了不足之处——比较依赖此前的研究成果，比如用COLMAP估计单目视频中摄像机的姿态，依赖FlowNet2建立几何约束等等。

这些方法的不足，也直接影响到了罗璇等人的研究。

另一个值得改进的地方在于，它不支持在线处理，训练244帧的视频需要约40分钟，如果想要实际的生活中，还需要进一步优化。

但从广大网友的山呼海啸般的反响中，也能够看到算法一旦实现，用户是肯定有的~

你期待吗？

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/live

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-05-03
本文作者：鱼羊乾明
本文来自：“量子位公众号”，了解相关信息可以关注“公众号 QbitAI”

文章标签：

编解码

异构计算

自动驾驶

程序员

算法

云栖号资讯小哥

目录

相关文章

学习python两年半

|

6月前

|

索引 Python

星际争霸之小霸王之小蜜蜂（七）--消失的子弹

星际争霸之小霸王之小蜜蜂（七）--消失的子弹

学习python两年半

23 0 0

学习python两年半

|

6月前

|

Python

星际争霸之小霸王之小蜜蜂（十二）--猫有九条命

星际争霸之小霸王之小蜜蜂（十二）--猫有九条命

学习python两年半

33 0 0

理想国余烬

|

7月前

|

机器学习/深度学习编解码人工智能

为友谊上色-记录亚运照片修复心得

友谊第一

理想国余烬

125 0 0

未闻Code

|

11月前

|

Python

字符串离奇消失之谜

字符串离奇消失之谜

未闻Code

60 0 0

-开发达人-

|

11月前

|

机器学习/深度学习人工智能算法

将有色液体图像转换成透明液体，CMU教机器人准确掌控向杯中倒多少水

将有色液体图像转换成透明液体，CMU教机器人准确掌控向杯中倒多少水

-开发达人-

74 0 0

视频云技术

|

传感器监控算法

当姿态估计算法遇上《本草纲目》，看“刘畊宏男孩”如何驱动虚拟人

探索人体数字化与智能化

视频云技术

10297 0 0

当姿态估计算法遇上《本草纲目》，看“刘畊宏男孩”如何驱动虚拟人

dasein58

|

vr&ar

他们用一款小学生都能玩的游戏，重建了圆明园

　　对于大多数人而言，圆明园不过是一处被毁败的遗迹。　　但在一群游戏玩家眼里，它是一个广袤丰富的园林，有清可见底的湖水，波云诡谲的建筑，流光溢彩的瓦砾，郁郁葱葱的树林。　　（视频为团队制作的视频——《万园之园·圆明园》）　　如此真实的世界，是这群玩家利用 Minecraft，一个开放的沙盘游戏，一转一瓦堆砌起来的。　　和团队的名字——史诗工坊一样，从萌生想法到第一期工程落地，他们花了近两年的时间去完成圆明园历史风光的重建。

dasein58

236 0 0

-开发达人-

|

传感器编解码安全

毅力号睁开几双「眼睛」，360度全景展示它的火星新家

近日，在火星安家的「毅力号」向地球发回了一张全景图，展示了着陆点杰泽罗陨石坑周围的面貌。

-开发达人-

147 0 0

毅力号睁开几双「眼睛」，360度全景展示它的火星新家

-开发达人-

|

人工智能算法 vr&ar

「缸中之脑」成真？动态电极绕过眼睛直接刺激大脑，在盲人脑海画出字母

最新研究绕过眼睛，通过动态电极刺激大脑，直接让天生的盲人脑海中出现字母！「智子倒计时」、「缸中之脑」、「黑客帝国」，让人分不清虚拟还是现实的直接意识输入，或许真的离我们不远了。

-开发达人-

217 0 0

「缸中之脑」成真？动态电极绕过眼睛直接刺激大脑，在盲人脑海画出字母

技术小达人

|

机器学习/深度学习人工智能 vr&ar

几分钟让小孩的人物涂鸦「动起来」，Meta AI创建了一个奇妙的火柴人世界

几分钟让小孩的人物涂鸦「动起来」，Meta AI创建了一个奇妙的火柴人世界

技术小达人

505 0 0

几分钟让小孩的人物涂鸦「动起来」，Meta AI创建了一个奇妙的火柴人世界

热门文章

最新文章

随机生成UserAgent的python库（fake-useragent库）

使用zxing识别一幅包含多个二维码的图片

阿里云的SLB，植入cookie和重写cookie有什么区别？

基于Flink的实时日志分析系统实践

如何在服务器上跑python程序

电池技术多年没有较大发展，成为移动设备最大制约

Spread for WinRT 7新功能使用指南

codeforces Soldier and Number Game（dp+素数筛选）

九度oj-1001-Java

Android:随笔——对页面的View进行截图

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势2

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法1

灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标

极值分析：分块极大值BLOCK-MAXIMA、阈值超额法、广义帕累托分布GPD拟合降雨数据时间序列

GARCH-DCC模型和DCC（MVT）建模估计

ARIMA、ARIMAX、动态回归和OLS 回归预测多元时间序列

R语言预测期货波动率的实现：ARCH与HAR-RV与GARCH，ARFIMA模型比较

spss modeler用决策树神经网络预测ST的股票

K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

matlab中使用VMD(变分模态分解)对信号去噪

相关课程

更多

【新人赛】工业蒸汽量预测建模算法代码开源分享合集

相册服务中的故事生成算法介绍

跨越N次元一键变身AI漫画人

相关电子书

更多

数据如何让运动更好玩

数据如何让运动更好玩有趣

分身大师那些事儿

相关实验场景

更多

函数计算部署AI艺术字应用，生成新春文字头像

一键创建和部署高分电影推荐语音技能

下一篇

阿里云oss简介和使用流程