【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章 强化学习(下)

  1. 云栖社区>
  2. Python爱好者社区>
  3. 博客>
  4. 正文

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章 强化学习(下)

技术小能手 2018-07-10 10:45:24 浏览1341
展开阅读全文

时间差分学习与 Q 学习

具有离散动作的强化学习问题通常可以被建模为马尔可夫决策过程,但是智能体最初不知道转移概率是什么(它不知道T),并且它不知道奖励会是什么(它不知道R)。它必须经历每一个状态和每一次转变并且至少知道一次奖励,并且如果要对转移概率进行合理的估计,就必须经历多次。

时间差分学习(TD 学习)算法与数值迭代算法非常类似,但考虑到智能体仅具有 MDP 的部分知识。一般来说,我们假设智能体最初只知道可能的状态和动作,没有更多了。智能体使用探索策略,例如,纯粹的随机策略来探索 MDP,并且随着它的发展,TD 学习算法基于实际观察到的转换和奖励来更新状态值的估计(见公式 16-4)。

image

其中:

a是学习率(例如 0.01)

TD 学习与随机梯度下降有许多相似之处,特别是它一次处理一个样本的行为。就像 SGD 一样,只有当你逐渐降低学习

网友评论

登录后评论
0/500
评论
技术小能手
+ 关注
所属云栖号: Python爱好者社区