特定人语音唤醒简介

简介: 特定人语音唤醒,就是通过识别语音中所含的内容和人的身份信息,来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能,同时可以增强个性化体验。

1.       什么是特定人语音唤醒

人的语音中含有大量的信息,除了语音内容(说了什么)外,还有语种(中文、英语)、身份(张三、李四)、情绪(平静、开心)等信息。

 

特定人语音唤醒,就是通过识别语音中所含的内容和人的身份信息,来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能,同时可以增强个性化体验。在YunOS语音助手中,就应用了此功能。此时机主可以通过“你好小云”这个语音口令,解锁手机并且唤醒YunOS语音助手。

 

和常见的语音唤醒相比,特定人语音唤醒功能不仅要求说对唤醒口令、还会判断是谁在说出这个口令。一旦口令不对或者身份不对,则会拒绝解锁手机和唤醒YunOS语音助手。

 

2.       特定人语音唤醒的基本框架

特定人语音唤醒方案整体框图如下:


92d8143ab5156156275c39cd296d724ad08fa785            

语音唤醒使用之前需要一个初始设置,特定人语音唤醒也一样,这是让智能设备认识用户自己声音的过程,初始设置在这里称之为注册,对应于模式识别的训练过程。默认情况下,用户根据页面提示,说出三遍你好小云就可以完成初始设置。注册完了之后,用户就可以使用特定人语音唤醒了。使用时,只有预设的语音口令内容、说话人身份都匹配的时候,手机才能解锁或者打开特定程序。

 

3.       分层次GMM(HiGMM)模型

除了VAD(静音检测)、特征提取、评分等模块之外,模型是是整个方案中的关键。为了实现同时完成语音唤醒和特定人判别,我们设计了一个分层次GMM(HiGMM)方案。模型训练如下图所示。

60c24bb4474dde76459381522d4a2328eca1bf2a


其中,需要完成的步骤有:1. 训练一个和说话人无关、内容无关的全局GMM模型;2. 根据注册数据,训练一个特定人、和内容无关的GMM模型;这一步的GMM模型,可以根据最大后验准则,用全局GMM和训练数据获得;3. 根据注册数据,训练一系列的特定人、特定内容的GMMs。这个过程中,首先需要把整个句子合理地切分成几个语音段,对于每个语音段,根据2GMM,训练一个GMM。由于每一个语音段都表示了特定说话内容因此训练得到的GMM,代表了特定人、特定文本内容;GMM序列组合起来,则代表了特定人、特定口令内容。

 

4.       特定人语音唤醒应用

目前云手机上,YunOS语音助手集成了特定人声纹唤醒功能,用户可以通过“你好小云”唤醒YunOS语音助手。

 

YunOS语音助手声纹功能还可以“被锻炼”,随着唤醒次数增多,可以使YunOS语音助手更熟悉用户的声音,并且减少他人的声音或者噪声带来的误操作。

 

以后,具有特定人语音唤醒功能的手机,还可以有更多的应用。比如:当你找不到自己手机的时候,你喊出“你好小云”就能将手机唤醒,此时手机可以响铃,做出“我在这里”的回应。另一种用途是当你想听自己喜欢的歌的时候,喊出“Hey, 小Y, 放首歌”,此时设备根据说话人的身份,播放个人喜欢的音乐。


目录
相关文章
|
29天前
|
机器学习/深度学习 Android开发 计算机视觉
视觉智能平台常见问题之唤起失败如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
20 0
|
29天前
|
机器学习/深度学习 存储 数据库
视觉智能平台常见问题之一直显示视频异步处理如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
18 0
|
网络协议 网络安全 PHP
使用天猫精灵实现计算机WOL网络唤醒
解决笔记本连显示器不想掀盖子开机和远程办公时给公司电脑开机不方便的痛点。
13530 8
使用天猫精灵实现计算机WOL网络唤醒
|
机器学习/深度学习 算法 机器人
FreeSWITCH ASR 电话机器人 VAD 打断 ASR集成 全功能开源代码
最近很多人都对FreeSWITCH和ASR对接比较感谢兴趣,我之前已经做了一个商业模块(商业模块请点击这里http://www.ddrj.com/callcenter/asr.html),考虑到大部分人,只是研究一下,并不准确购买商业模块,特意做一个开源项目给大家提供一个参考。
382 0
|
语音技术
TTS语音如何停止及异步?SAPI.SpVoic 停止播放和异步播放的办法
TTS语音如何停止及异步?SAPI.SpVoic 停止播放和异步播放的办法
203 0
TTS语音如何停止及异步?SAPI.SpVoic 停止播放和异步播放的办法
|
Java 语音技术 微服务
阿里云智能语音交互异步长文本语音合成接收回调Java示例
本文详细介绍如何使用异步长文本语音合成接收服务回调数据的Java示例
620 0
阿里云智能语音交互异步长文本语音合成接收回调Java示例
|
Java
天猫精灵实现无唤醒词推送断网播报
通过个人开发技能实现天猫精灵无需唤醒词,自动推送播报相关事件。
13808 2
天猫精灵实现无唤醒词推送断网播报
|
自然语言处理 人机交互 语音技术
阿里云智能语音交互中录音文件识别服务的简单使用
智能语音交互产品基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景,识别是针对已经录制完成的录音文件,进行离线识别的服务。录音文件识别是非实时的,识别的文件需要提交基于HTTP可访问的URL地址,不支持提交本地文件。此篇文章简单介绍下javasdk的调用
835 0
阿里云智能语音交互中录音文件识别服务的简单使用
|
自然语言处理 视频直播 人机交互
阿里云智能语音交互中实时识别服务的简单使用
智能语音交互产品基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景,实时识别服务对长时间的语音数据流进行识别,适用于会议演讲、视频直播等长时间不间断识别的场景,此篇文章将介绍此服务的简单使用
1298 0
阿里云智能语音交互中实时识别服务的简单使用
|
自然语言处理 Java 人机交互
阿里云智能语音交互中一句话识别服务的简单使用
智能语音交互产品基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景,一句话识别服务可以对一分钟内的短语音进行识别,适用于对话聊天,控制口令等较短的语音识别场景,此篇文章将介绍此服务的简单使用
974 0
阿里云智能语音交互中一句话识别服务的简单使用