Caffe2推出强化学习库,包含多个基于Caffe2的RL实现

简介:
本文来自AI新媒体量子位(QbitAI)

今年4月,Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天,Caffe2又推出了一组强化学习库RL_Caffe2。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

强化学习(Reinforcement learning,RL)是机器学习的一个领域,它想教会智能体动作和行为的关系,并在环境中持续一段时间后将奖励最大化。

智能体可以是游戏代理、推荐系统、通知机器人或其他的决策系统。奖励可以是游戏中的点数、或者是网站上更多的参与度。

这个开源的Caffe2 RL框架中包含了一些在OpenAI Gym环境下基于Caffe2的RL实现:

1.DQN

一种Deep Q Learning网络的实现:

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf.

2.SARSA

这是假设输入是既定策略(on-policy)的简化的DQN:

生成数据的策略是实时更新的。SARSA的优点是在训练过程中,我们无需了解可能的动作,只需知道采取了行动就好了。

3.Actor-Critic

Actor Critic模型的实现:

https://arxiv.org/pdf/1509.02971.pdf

RL_Caffe2 GitHub地址:

https://github.com/caffe2/reinforcement-learning-models

a59af75575f0a6d49ee103c6e766ac28dd1005f0

无独有偶,几日前谷歌TensorFlow中构建并行强化学习算法的基础架构范例TensorFlow Agents也开源了。

TensorFlow Agents将OpenAI Gym的接口扩展到多个并行环境,用户可在TensorFlow中训练智能体并执行批量运算。此外,研究人员还提供了近端策略优化(Proximal Policy Optimization,PPO)中的实现BatchPPO。

TensorFlow Agents GitHub 地址:

https://github.com/tensorflow/agents

相关论文:

https://arxiv.org/abs/1709.02878

本文作者:安妮
原文发布时间:2017-09-15 
相关文章
|
机器学习/深度学习 数据挖掘 PyTorch
视觉神经网络模型优秀开源工作:PyTorch Image Models(timm)库(上)
视觉神经网络模型优秀开源工作:PyTorch Image Models(timm)库(上)
|
4月前
|
机器学习/深度学习 PyTorch TensorFlow
一文带你了解 三种深度学习框架(Caffe,Tensorflow,Pytorch)的基本内容、优缺点以及三者的对比
一文带你了解 三种深度学习框架(Caffe,Tensorflow,Pytorch)的基本内容、优缺点以及三者的对比
147 1
|
4月前
|
缓存 PyTorch 编译器
使用PyTorch II的新特性加快LLM推理速度
Pytorch团队提出了一种纯粹通过PyTorch新特性在的自下而上的优化LLM方法,包括:
182 1
|
7月前
|
机器学习/深度学习 存储 TensorFlow
深度学习框架Tensorflow模型分析
深度学习框架Tensorflow模型分析
84 0
|
9月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
TensorFlow 初步:深度学习模型构建入门
TensorFlow 是由 Google Brain 团队开发的深度学习框架,它提供了一种高效且灵活的方式来实现和训练各种深度学习模型。本文将引导你通过 TensorFlow 的基础功能,帮助你构建你的第一个深度学习模型。
|
10月前
|
机器学习/深度学习 人工智能 并行计算
模型推理加速系列 | 02:如何用ONNX加速BERT特征抽取-part2(附代码)
本文紧接之前的一篇文章如何用ONNX加速BERT特征抽取,继续介绍如何用ONNX+ONNXRuntime来加速BERT模型推理。
|
11月前
|
机器学习/深度学习 缓存 移动开发
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
|
机器学习/深度学习 人工智能 自动驾驶
深度学习模型部署综述(ONNX/NCNN/OpenVINO/TensorRT)(下)
今天自动驾驶之心很荣幸邀请到逻辑牛分享深度学习部署的入门介绍,带大家盘一盘ONNX、NCNN、OpenVINO等框架的使用场景、框架特点及代码示例。
深度学习模型部署综述(ONNX/NCNN/OpenVINO/TensorRT)(下)
|
机器学习/深度学习 存储 人工智能
深度学习模型部署综述(ONNX/NCNN/OpenVINO/TensorRT)(上)
今天自动驾驶之心很荣幸邀请到逻辑牛分享深度学习部署的入门介绍,带大家盘一盘ONNX、NCNN、OpenVINO等框架的使用场景、框架特点及代码示例。
深度学习模型部署综述(ONNX/NCNN/OpenVINO/TensorRT)(上)
|
机器学习/深度学习 人工智能 TensorFlow
AI实战 | Tensorflow自定义数据集和迁移学习(附代码下载)
AI实战 | Tensorflow自定义数据集和迁移学习(附代码下载)
AI实战 | Tensorflow自定义数据集和迁移学习(附代码下载)