Caffe2推出强化学习库，包含多个基于Caffe2的RL实现-阿里云开发者社区

Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

2018-01-09 1271

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文来自AI新媒体量子位（QbitAI）

今年4月，Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天，Caffe2又推出了一组强化学习库RL_Caffe2。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

强化学习（Reinforcement learning,RL）是机器学习的一个领域，它想教会智能体动作和行为的关系，并在环境中持续一段时间后将奖励最大化。

智能体可以是游戏代理、推荐系统、通知机器人或其他的决策系统。奖励可以是游戏中的点数、或者是网站上更多的参与度。

这个开源的Caffe2 RL框架中包含了一些在OpenAI Gym环境下基于Caffe2的RL实现：

1.DQN

一种Deep Q Learning网络的实现：

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf.

2.SARSA

这是假设输入是既定策略（on-policy）的简化的DQN:

生成数据的策略是实时更新的。SARSA的优点是在训练过程中，我们无需了解可能的动作，只需知道采取了行动就好了。

3.Actor-Critic

Actor Critic模型的实现：

https://arxiv.org/pdf/1509.02971.pdf

RL_Caffe2 GitHub地址：

https://github.com/caffe2/reinforcement-learning-models

a59af75575f0a6d49ee103c6e766ac28dd1005f0

无独有偶，几日前谷歌TensorFlow中构建并行强化学习算法的基础架构范例TensorFlow Agents也开源了。

TensorFlow Agents将OpenAI Gym的接口扩展到多个并行环境，用户可在TensorFlow中训练智能体并执行批量运算。此外，研究人员还提供了近端策略优化（Proximal Policy Optimization，PPO）中的实现BatchPPO。

TensorFlow Agents GitHub 地址：

https://github.com/tensorflow/agents

Caffe2推出强化学习库，包含多个基于Caffe2的RL实现