语音顶会Interspeech 论文解读｜Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification-阿里云开发者社区

语音顶会Interspeech 论文解读｜Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification

2019-09-11 1596

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Interspeech是世界上规模最大，最全面的顶级语音领域会议，本文为Siqi Zheng, Gang Liu, Hongbin Suo, Yun Lei的入选论文

2019年，国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大，最全面的顶级语音领域会议，近2000名一线业界和学界人士将会参与包括主题演讲，Tutorial，论文讲解和主会展览等活动，本次阿里论文有8篇入选，本文为Siqi Zheng, Gang Liu, Hongbin Suo, Yun Lei的论文《Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification》

点击下载论文

文章解读

本文提出了一种基于Denoising Autoencoder的跨信道声纹识别无监督训练框架。当声纹识别模型的训练数据与测试数据存在信道差异时，识别性能会出现明显下降。而获得同信道的精标数据通常较为昂贵。因此，需要我们能够有效利用线上积累的同信道未标注数据，用无监督的方式训练模型。
基于Curriculum Learning的思想，本文提出了一套无监督声纹训练框架。以家用智能音箱的线上交互数据为训练集，通过从易到难，层层递进的方式，让模型不能学习到解决更复杂任务的能力。从一开始的精标数据、文本相关、同信道数据开始，逐渐增加数据的复杂度，最终让模型学习到跨信道、文本无关条件下的识别能力。在每一轮的迭代中，不断通过上一轮迭代的中间模型，去对新的无监督数据进行聚类打标，聚类的结果再筛选进入下一轮的迭代中。

除此以外，在家用智能音箱等远场声纹识别场景中，声音信号采集设备与声源的距离和相对位置时刻在发生变化，给声纹识别带来了额外的难度。因此，本文引入Denoising Autoencoder，通过将说话人的远场与近场的语音分别作为input和target，训练DAE网络，将远场的说话人embedding映射到近场的embedding空间中，从而增加了模型在远场说话人识别中的鲁棒性。

文章摘要

This study aims to improve the performance of speaker verification system when no labeled out-of-domain data is available. An autoencoder-based semi-supervised curriculum learning scheme is proposed to automatically cluster unlabeled data and iteratively update the corpus during training. This new training scheme allows us to (1) progressively expand the size of training corpus by utilizing unlabeled data and correcting previous labels at run-time; and (2) improve robustness when generalizing to multiple conditions, such as out-of-domain and text-independent speaker verification tasks. It is also discovered that a denoising autoencoder can significantly enhance the clustering accuracy when it is trained on carefully-selected subset
of speakers. Our experimental results show a relative reduction of 30% − 50% in EER compared to the baseline.
Index Terms: Speaker Verification, Semi-Supervised Learning, Curriculum Learning, Denoising Autoencoder, SSCL

阿里云开发者社区整理