谷歌新论文:教机器人预测3D结构、然后抓取物体

简介:
本文来自AI新媒体量子位(QbitAI)

最近,Google的一组科研人员完成了一篇新论文:基于几何感知表征的抓取交互学习(Learning Grasping Interaction with Geometry-aware Representations),论文提出了一种几何感知编码器-解码器网络,利用几何感知表征来学习实现抓取交互。

这篇论文的作者包括:密歇根大学的前谷歌大脑实习生Xinchen Yan,谷歌大脑的Jasmine Hsu、James Davidson,Google X的Mohi Khansari、Yunfei Bai、以及谷歌、谷歌研究院的Arkanath Pathak、Abhinav Gupta。

具体效果如何呢?作者还提供了一个关于实验结果的简短演示视频:


以下,是论文主要内容的介绍:

论文摘要

学习与环境中的物体进行交互是一个涉及到感知、运动规划和控制的根本性AI问题。然而,由于存在高维状态空间、很难创建大规模数据集和很难关注到物体外观的多类变化信息(如几何结构、材质、纹理和照射度等),因此学习此类交互表征十分具有挑战性。

我们论证了物体3D几何结构是抓取交互的研究核心,并提出一种称为几何感知学习智能体(geometry-aware learning agent)的新概念。

本文的核心思想是通过3D几何学预测来约束和规范交互学习。

具体地说,本文把几何感知智能体的学习过程分为两个步骤:首先,智能体通过3D形态生成模型,从2D感知输入中学习构建当前场景的几何感知表征;然后,它通过内置的几何感知表征来学习预测抓取结果。这种几何感知表征方法利用一种新颖的无学习(learning-free)深度投影层,在几何学与交互的关联研究中起到了关键作用。

本文的主要贡献有三方面:(1)我们利用虚拟现实(VR)演示构建了一个具有丰富感知和交互标注的抓取数据集;(2)我们证明了,与基准模型相比,学习几何感知表征能得到一个鲁棒性更好的抓取结果预测效果;(3)我们也展示了这种几何感知表征学习方法在抓取规划中的优势。

实现方法

ad9b268fe46b6ffb2e2142a0fb936b287ade1fe1

 两阶段学习框架示意图

我们提出了一种两阶段的学习框架,分别执行3D形态预测和利用几何感知表征进行抓取结果预测。给定任何场景下的2D感知输入,都能生成相应的3D物体形状(如体积表征),这是本文所提出的几何感知智能体中一个非常重要的特性。更具体地说,

在本文构想中,几何感知表征可理解为:(1)一种在世界坐标系下以相机目标为中心的场景的占用网格表征方法,和(2)其对相机视角和距离具有不变性。

模型结构

7cb071a2cd851d9f48a0d2d795e791d089121cf2

 几何感知编码器-解码器网络示意图

本文所构建的几何感知编码器-解码器网络包含两个部分,分别是3D形态生成网络(生成功能)和抓取结果预测网络(预测功能)。其中,形态生成网络包含一个2D卷积形态编码器和一个3D反卷积形态解码器,再接上一个全局投影层;结果预测网络包含一个2D卷积状态编码器和一个带有额外局部形态投影层的全连接结果预测器。

实验

下图从直观层面和内在信息流两个角度简单介绍了3D形态预测的流程图。

0b731a7275ed554549f9fb5bec3cadaae0098497

 3D形态预测流程图

论文传送门:

https://arxiv.org/pdf/1708.07303.pdf

本文作者:王小新 
原文发布时间:2017-09-02
相关文章
|
11月前
|
传感器 Web App开发 运维
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
126 1
|
11月前
|
机器学习/深度学习 存储 数据采集
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI
242 0
|
11月前
|
机器学习/深度学习 自然语言处理 算法
轻松完成700多条指令、成功率达97%!谷歌开源机器人领域transformer
轻松完成700多条指令、成功率达97%!谷歌开源机器人领域transformer
138 0
|
11月前
|
机器学习/深度学习 存储 人工智能
7 Papers & Radios | 无人机3D打印登Nature封面;哈工大用微波驱控机器人
7 Papers & Radios | 无人机3D打印登Nature封面;哈工大用微波驱控机器人
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题(2)
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题(1)
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题
|
11月前
|
机器学习/深度学习 Web App开发 人工智能
这两位中国学者,刚刚斩获了机器人顶会RSS最佳论文奖
这两位中国学者,刚刚斩获了机器人顶会RSS最佳论文奖
111 0
|
11月前
|
数据可视化 机器人 大数据
Science Robotics 封面论文:重创微型飞行机器人的介电弹性驱动器,依旧坚挺!
Science Robotics 封面论文:重创微型飞行机器人的介电弹性驱动器,依旧坚挺!
|
11月前
|
机器学习/深度学习 自然语言处理 算法
谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
144 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
谷歌机器人「吃了」语言大模型后,会自学和思考了
谷歌机器人「吃了」语言大模型后,会自学和思考了
238 0

热门文章

最新文章