AI学习笔记——求解最优MDP-阿里云开发者社区

AI学习笔记——求解最优MDP

2018-09-22 1371

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 上一篇文章介绍了MDP的基本概念，但是我们更关心的是如何寻找到最佳的路径解决MDP问题。MDP过程中，可以有无数种策略(policy)，找到最佳的路径实际上就是找到最佳的Policy 来最大化V函数(Value Function)或者Q函数(Action-Value Function)。

上一篇文章介绍了MDP的基本概念，但是我们更关心的是如何寻找到最佳的路径解决MDP问题。MDP过程中，可以有无数种策略(policy)，找到最佳的路径实际上就是找到最佳的Policy 来最大化V函数(Value Function)或者Q函数(Action-Value Function)。

用数学表达式表达出来就是：

其中加星号* 的v和q表示最优的v和q。

还记得上一篇文章中的那个例子吗？学生学习的的状态有Facebook, Class1, Class2, Pass, Sleep 6个状态(State)，每个状态都有一个或者多个行动(Action)。最优的V函数和Q函数都已求出来了，找到最优策略就是找到最大q*的过程。显然红色的路径就是最优策略，只有沿着这条路径才能的到最大的奖励。