如何让强化学习走进现实世界？DeepMind要用“控制套件”推动-阿里云开发者社区

如何让强化学习走进现实世界？DeepMind要用“控制套件”推动

2018-01-05 1138

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文来自AI新媒体量子位（QbitAI）

火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6，这么强大的算法什么时候才能打破次元壁，走进现实、控制物理世界中的物体呢？

DeepMind已经开始往这方面努力。他们昨天发布的控制套件“DeepMind Control Suite”，就为设计和比较用来控制物理世界的强化学习算法开了个头。

就像ALE（Arcade Learning Environment）极大推动了用强化学习打电子游戏的研究一样，DeepMind希望他们的Control Suite也能推动用强化学习控制实体的研究，比如说先让模拟环境中的机器人学会行走、游泳、搬东西等等。

Control Suite设计了一组有着标准化结构、可解释奖励的连续控制任务，还为强化学习Agent提供一组性能测试指标。

这些任务基于MoJoCo物理引擎，所用的语言是Python。DeepMind在GitHub上放出的源代码中，就包含基于MoJoCo的Python强化学习环境，以及为MoJoCo提供Python绑定的软件库。

59801837dc0cfbcce9245b274da284a90d02e0ae

如上图所示，Control Suite中的任务可以分为14个领域，也就是14类物理模型，上排从左到右分别是：

体操机器人Acrobot，（两节钟摆）、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人，下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。

DeepMind还测试了A3C、DDPG和D4PG强化学习算法在这些任务上的表现，：

eb76924a677167d0c505517703f7b59d5349bf89

这些结果也是强化学习完成控制任务的基线数据。

DeepMind Control Suite似乎很受欢迎，截止量子位发稿，已经在GitHub上收获了300多个星标。

6039ba15db376ec998a8daf0a3efe14a454311c1

Twitter网友们也在热烈讨论这个Control Suite。不过，DeepMind官推为这个套件所选的配图，可谓骨骼清奇，被不少网友质疑：这是……最优跑步方式？

O(∩_∩)O 最后放出来，给大家来观赏一下：

3ed43cf67206c3662934e120091890968b863ab0

请勿模仿，请勿模仿，请勿模仿。

如果受伤了还怎么看下面的论文和代码呢~

论文：
https://arxiv.org/pdf/1801.00690.pdf

代码：
https://github.com/deepmind/dm_control

本文作者：夏乙

原文发布时间：2018-01-04

如何让强化学习走进现实世界？DeepMind要用“控制套件”推动