DeepMind重磅论文:通过奖励模型,让AI按照人类意图行事

  1. 云栖社区>
  2. 新智元>
  3. 博客>
  4. 正文

DeepMind重磅论文:通过奖励模型,让AI按照人类意图行事

技术小能手 2018-11-23 14:52:43 浏览749
展开阅读全文

如何让AI符合人类的意图?

这个问题是将AI系统部署到真实世界、帮助人类解决复杂问题的最大障碍之一。

DeepMind将这个问题定义为“智能体对齐问题”(agent alignment problem),并提出依赖于奖励建模,正面解决agent alignment问题的研究方向。

7d9f66bb1c845b67c1ae70476e55031acfded775

这篇文章基于DeepMind的新论文Scalable agent alignment via reward modeling: a research direction,概述了解决agent alignment问题的研究方向。所提出的方法依赖于奖励建模的递归应用,以符合用户意图的方式解决复杂的现实世界问题。

近年来,强化学习在许多复杂游戏环境中取得了令人瞩目的成绩,从Atari游戏、围棋、象棋到Dota 2和星际争霸II,AI智能体在越来越复杂的领域迅速超越了人

网友评论

登录后评论
0/500
评论
技术小能手
+ 关注
所属云栖号: 新智元