实战深度强化学习DQN-理论和实践

  1. 云栖社区>
  2. python技术进阶>
  3. 博客>
  4. 正文

实战深度强化学习DQN-理论和实践

一码平川MACHEL 2019-02-26 15:22:27 浏览2025
展开阅读全文

本文来自云栖社区官方钉群“Python技术进阶”,了解相关信息可以关注“Python技术进阶”。

1、Q-learning回顾

Q-learning 的 算法过程如下图所示:

image

在Q-learning中,我们维护一张Q值表,表的维数为:状态数S * 动作数A,表中每个数代表在当前状态S下可以采用动作A可以获得的未来收益的折现和。我们不断的迭代我们的Q值表使其最终收敛,然后根据Q值表我们就可以在每个状态下选取一个最优策略。

Q值表的更新公式为:

image

公式中,Q(S,A) 我们可以称做Q估计值,即我们当前估计的Q值,而:

image

称为Q-target,即我们使用贝尔曼方程加贪心策略认为实际应该得到的奖励,我们的目标就是使我们的Q值不断的接近Q-target值。

2、深度Q网络(Deep - Q - Network)

2.1 DQN简介

为什么会出现DQN呢

在普通的Q

网友评论

登录后评论
0/500
评论
一码平川MACHEL
+ 关注
所属云栖号: python技术进阶