备案控制台

开发者社区

开发者社区人工智能文章正文

AI学习笔记——强化学习之Model-Free Prediction--解决未知环境下的预测问题

2018-10-17 1805

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前面关于强化学习的文章中介绍了MDP，动态规划的方法对MDP问题的V函数进行评估和求最优策略。然而现实问题中，往往很多时候环境是未知的。那么这篇文章就介绍一下在未知环境下用Model Free的方法预测MDP。

前面关于强化学习的文章中介绍了MDP，动态规划的方法对MDP问题的V函数进行评估和求最优策略。然而现实问题中，往往很多时候环境是未知的。那么这篇文章就介绍一下在未知环境下用Model Free的方法预测MDP。

1. Monte-Carlo （蒙特卡洛）策略估计

Monte-Carlo(MC)方法广泛应用于数学、物理和金融等领域。比如在物理学中研究离子运动轨迹，我们就可以采用Monte-Carlo方法进行多次随机抽样，观测离子运动规律。

同样的，在解决强化学习问题的时候，机器人面对未知环境的时候，它也可以用MC的方法评估当前策略。如果想知道当前策略π，当前状态s下的价值函数V函数，在当前策略π下直接行动，待到达终点之后(完成一个episode)，再复盘整个过程所获得的奖励，评估出s状态下的V函数。然后再不停迭代，最终获得该策略π下s状态下的真实V函数Vπ(s)。

当然Monte-Carlo策略估计方法也分为首次访问MC方法和每次访问MC方法，两者唯一的不同只有一处，下面算法过程中在括号中的就是每次访问MC方法。

算法过程如下:

在一个episode中，当s状态第一次被访问到(或者每次被访问到)的时候，计数器N(S)=N(S)+1。
总共得到的奖励S(s) = S(s) + Gt
价值V函数的数值V(s)= S(s) /N(s)
当迭代无数次之后，根据大数定理，V(s)就应该趋近真实的V函数Vπ(s)

2. Monte-Carlo(MC)迭代更新

在介绍Monte-Carlo迭代更新之前必须先引入一个迭代求平均的例子。比如你想算一箱苹果中苹果的平均重量，简单的方法是随机抽取几个苹果，将这几个苹果的重量相加再除以个数就估算出了苹果的平均重量。

如果想让这个估计更加精确，你又从箱子里面拿出一个苹果，这时候还需要将所有拿出来的苹果重量相加吗？当然不需要。你只需要将这个苹果的重量减去之前求得的平均数，再除以总共拿出苹果的数量得到误差。最后原平均数加上这个误差就是新的平均数了。证明过程如下。

有了这个迭代求平均值的方法我们就可以改进MC算法，不用记住总共得到的奖励S(s)了

对于每个St，和奖励Gt

其实我们甚至都不用记住N(St), 因为在非静态的(Non-Stationary)的问题中，如果N越大，就意味着误差越小，当前行动对V函数的纠正就越小。所以在实际过程中我们往往用一个固定的学习速率α来代替1/N(St):

这个公式是不是跟之前的梯度下降(Gradient Desent)方法非常类似了。

3. Temporal-Defference (TD)算法

MC有一个很大的缺点，就是要更新V(s)一定要走完整个epsoide。TD方法不需要走完整个epsoide，走有限几步就可以更新，极端情况下TD(0)甚至可以走一步就更新。

回顾MC算法：

其中

TD(0)算法：

如英文描述红色文字部分叫做TD-target。与MC类似括号里面的误差叫做TD error

4. MC vs TD

MC有高Variance 零Bias:

收敛性好
对初始值不敏感
算法容易理解和使用

MC 对解决非马可夫环境(或者部分马可夫环境)效果好。

TD有低的Variance，一些Bias

比MC效率高
TD(0)能收敛于Vπ(s)
对初始值敏感

TD能探索出马可夫模型，对马可夫环境效果好。

5. DP，MC，TD比较

之前文章中介绍的动态规划(DP)，与MC，TD相比较可以发现

从抽样的数量和反馈的深度可以这样理解DP,MC和TD

实际上TD不仅仅只有只走一步的TD(0), 可以是n TD(n)。当n等于无穷大的时候TD=MC

文章标签：

算法

C++

机器学习/深度学习

人工智能

机器人

关键词：

AI强化学习

AI环境

AI笔记

AI学习笔记

AI预测

hongtao2018

目录

相关文章

vohelon

|

10天前

|

机器学习/深度学习人工智能安全

【4月更文挑战第27天】ai集成环境

vohelon

25 1 1

爱吃糖的范同学

|

3天前

|

机器学习/深度学习人工智能自然语言处理

【AI 生成式】强化学习如何应用于生成式 AI？

【5月更文挑战第4天】【AI 生成式】强化学习如何应用于生成式 AI？

爱吃糖的范同学

15 0 0

爱吃糖的范同学

|

4天前

|

机器学习/深度学习人工智能自动驾驶

【AI 初识】强化学习是如何工作

【5月更文挑战第3天】【AI 初识】强化学习是如何工作

爱吃糖的范同学

21 3 3

爱吃糖的范同学

|

5天前

|

机器学习/深度学习人工智能运维

【AI 初识】监督学习、无监督学习和强化学习定义

【5月更文挑战第2天】【AI 初识】监督学习、无监督学习和强化学习定义

爱吃糖的范同学

23 1 1

桃李春风一杯酒

|

7天前

|

机器学习/深度学习人工智能算法

【Python 机器学习专栏】强化学习在游戏 AI 中的实践

【4月更文挑战第30天】强化学习在游戏AI中展现巨大潜力，通过与环境交互和奖励信号学习最优策略。适应性强，能自主探索，挖掘出惊人策略。应用包括策略、动作和竞速游戏，如AlphaGo。Python是实现强化学习的常用工具。尽管面临训练时间长和环境复杂性等挑战，但未来强化学习将与其他技术融合，推动游戏AI发展，创造更智能的游戏体验。

桃李春风一杯酒

20 0 1

同学小张

|

14天前

|

人工智能 API 决策智能

【AI Agent系列】【MetaGPT多智能体学习】0. 环境准备 - 升级MetaGPT 0.7.2版本及遇到的坑

【AI Agent系列】【MetaGPT多智能体学习】0. 环境准备 - 升级MetaGPT 0.7.2版本及遇到的坑

同学小张

22 0 0

布客飞龙

|

21天前

|

机器学习/深度学习自然语言处理 PyTorch

fast.ai 深度学习笔记（三）（4）

fast.ai 深度学习笔记（三）（4）

布客飞龙

25 0 0

布客飞龙

|

21天前

|

机器学习/深度学习算法 PyTorch

fast.ai 深度学习笔记（三）（3）

fast.ai 深度学习笔记（三）（3）

布客飞龙

34 0 0

布客飞龙

|

21天前

|

机器学习/深度学习编解码自然语言处理

fast.ai 深度学习笔记（三）（2）

fast.ai 深度学习笔记（三）（2）

布客飞龙

36 0 0

布客飞龙

|

21天前

|

机器学习/深度学习 PyTorch 算法框架/工具

fast.ai 深度学习笔记（三）（1）

fast.ai 深度学习笔记（三）（1）

布客飞龙

41 0 0

热门文章

最新文章

如何用MongoDB Atlas和大语言模型，高效构建企业级AI应用？

AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用！

招募！阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用

Java语言开发的AI智慧导诊系统源码springboot+redis 3D互联网智导诊系统源码

fast.ai 深度学习笔记（五）（3）

fast.ai 机器学习笔记（四）（2）

fast.ai 深度学习笔记（二）（3）

fast.ai 深度学习笔记（七）（4）

fast.ai 深度学习笔记（六）（3）

fast.ai 机器学习笔记（一）（4）

科技云报道：第五次工业革命，中国AI企业如何打造新质生产力？

破壁人AI百度：科技公司反内卷的典型样本

微软AI程序员登场

OpenAI与法国和西班牙媒体巨头合作：利用内容进行训练AI

Katalist官网体验入口生成式AI视觉故事板工具

一个接口白嫖四个AI平台, 五个翻译平台

ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文

F5怎么样？保障AI服务的安全性和交付

【SCI论文】“学术丑闻揭露：当AI写作遭遇学术审稿，ChatGPT意外成为论文共作者!“

Google Gemma 模型服务：开放的生成式 AI 模型服务

相关课程

更多

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

AI社区开源学习实践

趣味视觉AI应用入门与实战

AI数学基础

相关电子书

更多

释放算力潜能，加速 AI 应用构建

网易游戏机器学习云平台助力AI应用落地实践

智算时代，基于 ACK 落地云原生AI

相关实验场景

更多

如何快速训练大模型

函数计算部署AI艺术字应用，生成新春文字头像

使用函数计算部署通义千问大模型实现AI对话

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

基于通义千问X函数计算部署AI助手

基于阿里云DeepGPU实例，让AI带你畅玩杭州

下一篇

将Stable Diffusion模型文件转存到FC环境的NAS