IBM宣布语音识别错误率接近人类水平-阿里云开发者社区

IBM宣布语音识别错误率接近人类水平

2017-07-04 1584

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

3月10日消息，据IBM官网报道，人们在说话时，对方每听20个单词都会漏掉或听错1-2个单词。在5分钟的对话中，可能会听错80个单词。但我们多数人在听懂说话上没有问题。然而，电脑就不一样了。

去年，IBM宣布在自然对话环境中的语音识别上取得重大成就：开发出单词错误率为6.9%的系统。此后，该公司不断取得进步。现在IBM宣布创造新的业界纪录：5.5%的错误率。这是对非常困难的语音识别任务：纪录人与人之间日常对话如“买汽车”，计算出来的结果。这种纪录的语料库被称为“SWITCHBOARD”，20多年来一直用于检验语音识别系统。

IBM研究人员在实现这个突破时，专注于应用深度学习技术，将LSTM（长短期记忆）和WaveNet语言模型与三个强大的声学模型结合起来。在被使用的3个声学模型中，前2个为双向6层LSTM，其中一个为多特征输入，另一个有对话多任务学习能力。最后一个模型有个独特的地方，其不仅能从积极的例子中学习，也能利用消极的例子，因此会变得越来越聪明，在重复出现类似说话风格时表现更好。

实现人类同等水准——错误率与2个人说话相当——长期以来都是行业的终极目标。行业里的其他人也在努力追赶IBM的纪录，一些人最近声称达到5.9%。在达到今天的成就过程中，IBM发现人类同等水准应该是错误率为5.1%。在确定这个数字上，IBM与合作伙伴Appen合作再现人类水平的结果。虽然IBM实现了5.5%的错误率是一次大的突破，但发现人类同等水准是5.1%证明科技要达到与人类相同水平还有一段距离。

在研究中，IBM联系了不同的行业专家，让他们对此事发表意见。蒙特利尔大学MILA实验室的主任Yoshua Bengio认同IBM还有很多工作要做才能实现人类同等水准。IBM意识到，发现人类同等水准的标准比原先想象更复杂。除了SWITCHBOARD外，还有另一个行业语料库CallHome，提供了不同的可测试的语音数据集。

本文转自d1net（转载）

相关实践学习

一键创建和部署高分电影推荐语音技能

本场景使用天猫精灵技能应用平台提供的技能模板，在2-5分钟内，创建一个好玩的高分电影推荐技能，使用模板后无须代码开发，系统自动配置意图、实体等，新手0基础也可体验创建技能的乐趣。

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

IBM宣布语音识别错误率接近人类水平

热门文章

最新文章

相关课程

相关电子书

相关实验场景