【专栏】谷歌资深工程师深入浅析AlphaGo Zero与深度强化学习

  1. 云栖社区>
  2. 新智元>
  3. 博客>
  4. 正文

【专栏】谷歌资深工程师深入浅析AlphaGo Zero与深度强化学习

技术小能手 2017-10-27 15:37:36 浏览1925
展开阅读全文

AlphaGo的巨大成功掀起了围棋界三千年未有之大变局,也使得深度强化学习(Deep Reinforcement Learning)渐为大众熟悉。尤其是最新推出的AlphaGo Zero完全摒弃了人类知识,并且三天内碾压了早期版本的AlphaGo,更足显强化学习和深度学习结合的巨大威力。AlphaGo Zero的论文侧重于描述效果,对于方法的论述比较简短,没有相关背景的人读起来可能会有一些困难。本文对强化学习以及AlphaGo Zero算法做了详细描述。

摘要

  1. AlphaGo Zero无需任何人类历史棋谱,仅使用深度强化学习,从零开始训练三天的成就已远远超过了人类数千年积累的围棋知识。
  2. 强化学习能够考虑到算法对于环境的影响, 特别适合解决多回合博弈问题。
  3. 在强化学习中,数据在运行过程中自主收集,这是AlphaGo Zero能摈弃人类棋谱的

网友评论

登录后评论
0/500
评论
技术小能手
+ 关注
所属团队号: 新智元