中国人工智能学会通讯——构建强健的人工智能:原因及方式 3. 优化对风险敏感的目标

  1. 云栖社区>
  2. CCAI>
  3. 博客>
  4. 正文

中国人工智能学会通讯——构建强健的人工智能:原因及方式 3. 优化对风险敏感的目标

行者武松 2017-09-01 11:33:00 浏览907
展开阅读全文

3. 优化对风险敏感的目标

image

现在,让我们考虑一下,如何利用马尔科夫决策过程(Markov decision process)来对风险敏感的目标进行优化。用这种方法来决策流程的最大问题是,必须先观察这世界找到策略设定回馈,要设定最终的目标、反馈。

想像一下标准的马尔科夫决策问题过程,我们通过代理(agent)来观察这个世界的状态,这个代理会根据一些政策来采取行动,并收到回馈(reward)。比如,下围棋时一直到游戏结束才能得到reward;但是在驾驶汽车时,每做一次正确决定就会得到一次reward,或者至少免受惩罚。

image

另外,我们还需要一个总回馈参数。我们来看一下,如果策略是固定的,要执行它,你可能要调整其他的一些参数,可以想像我们所收到的回馈参数会有这样的概率分布,可以看到,它有一个下行的风险。我们要优化这个目标,让它尽可能避免下行的风险。我们现在使用的是CVaR(Conditional Value at Risk),如上图所示。

image

这里可以得出一个结论:优化CVaR,对模型的错误有更好的鲁棒性。

image

其实还有很多的例子,我就不谈了,因为时间的关系我们看下一部分。

网友评论

登录后评论
0/500
评论
行者武松
+ 关注
所属团队号: CCAI