时代聚焦AI安全——可解释性

  1. 云栖社区>
  2. 翻译小组>
  3. 博客>
  4. 正文

时代聚焦AI安全——可解释性

【方向】 2018-01-02 21:27:48 浏览4355
展开阅读全文

fce99ee14b4c9e2de834bcd60d2b24d618e47413

今年的NIPS多集中在人工智能安全上,此外精彩的部分还有凯特·克劳福德关于人工智能公平性问题上被忽视的主题演讲、ML安全研讨会、以及关于“我们是否需要可解释性?”可解释ML讨论会辩论

值校准文件

逆向奖励设计是为了解决RL代理根据人类设计的代理奖励函数推断出人类的真实奖励函数的一种设计。与反强化学习(IRL不同,它可以让代理人从人的行为推断出奖励函数。论文中提出了一个IRD方法,假设人类选择一个可以导致训练环境中正确行为的代理奖励,代理人就奖励函数的不确定性遵循风险规避策略,模拟真实奖励的不确定性。

aa1676400d176dca7179a1d0cd427b5fc505037e

尽管目前还不清楚它们将如何推广到更复杂的环境,但是这篇论文中关于如何避免某些副作用和阻止奖励黑客行为的观点还是有些令人备受鼓舞的。这种方法也有可能过于规避一些新事物,但是在这种环境下看到一些安全探索的方法是非常棒的。

重复反向RL是指推导

网友评论

登录后评论
0/500
评论
【方向】
+ 关注
所属云栖号: 翻译小组