End-to-end LSTM-based dialog control optimized with SL and RL-阿里云开发者社区

End-to-end LSTM-based dialog control optimized with SL and RL

2017-08-01 1797

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文介绍的paper一个实用性非常强的解决方案，作者来自于微软研究院，毕业于剑桥大学Spoken Dialogue Group，研究bot很多很多年了。paper的题目是End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning，最早发表于今年的6月3日。

文章的开头很有意思，先是从一个大家熟知的场景开始介绍，一个经验丰富的客服是如何带一个新入职的客服。四个阶段：

1、告诉新客服哪些”controls”是可用的，比如：如何查找客户的信息，如何确定客户身份等等。
2、新客服从老客服做出的good examples中模仿学习。
3、新客服开始试着服务客户，老客服及时纠正他的错误。
4、老客服放手不管，新客服独自服务客户，不断学习，不断积累经验。

本文的框架就是依照上面的过程进行设计的：

1、开发者提供一系列备选的actions，包括response模板和一些API函数，用来被bot调用。
2、由专家提供一系列example dialogues，用RNN来学习。
3、用一个模拟user随机产生query，bot进行response，专家进行纠正。
4、bot上线服务，与真实客户进行对话，通过反馈来提高bot服务质量。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

一个完整的工作流程由上图描述:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

本文在训练的时候是用一部分高质量的数据进行监督学习SL，用增强学习RL来优化模型，得到质量更高的结果。并且文中以打电话给指定联系人为应用场景，举了一个实际的例子，来帮助理解本文的思路。

一般来说，很多文章提到end-to-end的模型，都是基于大量训练数据用seq2seq来做response的生成，本文并不是这样，本文的神经网络模型是用来训练action selection的，包括后面用RL policy gradient来提升效果也都是为了选择action。虽然本文不是一个纯粹的end-to-end解决方案，但确实一个非常实用的解决方案，尤其是对于task-oriented bot的业务来说，这样的解决方案更加高效，值得复现，值得在一些细节的地方进行改善，从而真正地减少人工features和人工成本。

来源：paperweekly

原文链接

End-to-end LSTM-based dialog control optimized with SL and RL

热门文章

最新文章

相关电子书