特定人语音唤醒简介-阿里云开发者社区

特定人语音唤醒简介

2016-03-18 8057

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 特定人语音唤醒，就是通过识别语音中所含的内容和人的身份信息，来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能，同时可以增强个性化体验。

1. 什么是特定人语音唤醒

人的语音中含有大量的信息，除了语音内容(说了什么)外，还有语种(中文、英语)、身份(张三、李四)、情绪(平静、开心)等信息。

特定人语音唤醒，就是通过识别语音中所含的内容和人的身份信息，来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能，同时可以增强个性化体验。在YunOS语音助手中，就应用了此功能。此时机主可以通过“你好小云”这个语音口令，解锁手机并且唤醒YunOS语音助手。

和常见的语音唤醒相比，特定人语音唤醒功能不仅要求说对唤醒口令、还会判断是谁在说出这个口令。一旦口令不对或者身份不对，则会拒绝解锁手机和唤醒YunOS语音助手。

2. 特定人语音唤醒的基本框架

特定人语音唤醒方案整体框图如下：

92d8143ab5156156275c39cd296d724ad08fa785

语音唤醒使用之前需要一个初始设置，特定人语音唤醒也一样，这是让智能设备认识用户自己声音的过程，初始设置在这里称之为“注册”，对应于模式识别的训练过程。默认情况下，用户根据页面提示，说出三遍“你好小云”就可以完成初始设置。注册完了之后，用户就可以使用特定人语音唤醒了。使用时，只有预设的语音口令内容、说话人身份都匹配的时候，手机才能解锁或者打开特定程序。

3. 分层次GMM(HiGMM)模型

除了VAD(静音检测)、特征提取、评分等模块之外，模型是是整个方案中的关键。为了实现同时完成语音唤醒和特定人判别，我们设计了一个分层次GMM(HiGMM)方案。模型训练如下图所示。

60c24bb4474dde76459381522d4a2328eca1bf2a

其中，需要完成的步骤有：1. 训练一个和说话人无关、内容无关的全局GMM模型；2. 根据注册数据，训练一个特定人、和内容无关的GMM模型；这一步的GMM模型，可以根据最大后验准则，用全局GMM和训练数据获得；3. 根据注册数据，训练一系列的特定人、特定内容的GMMs。这个过程中，首先需要把整个句子合理地切分成几个语音段，对于每个语音段，根据2的GMM，训练一个GMM。由于每一个语音段都表示了特定说话内容因此训练得到的GMM，代表了特定人、特定文本内容；GMM序列组合起来，则代表了特定人、特定口令内容。