语音识别真的比肩人类了?听听阿里iDST初敏怎么说

简介: 语音识别真的比肩人类了吗?各种算法之间该如何选择?如何提升语音交互的用户体验?带着这些问题,云栖社区采访了阿里云iDST智能交互总监初敏,听听她是怎么说的。

编者按:由中国人工智能学会、阿里巴巴以及蚂蚁金服联合主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将于7月22-23日正式召开,大会期间阿里云iDST智能交互总监初敏将在“语言智能与应用”论坛上分享语音交互技术的趋势,在此之前,阿里云云栖社区作为独家直播合作伙伴采访了初敏。

围绕语音交互的入口之争正愈演愈烈,siri、echo这些产品风靡全球的同时,国内外科技巨头、创业团队也在暗流涌动,各种智能音箱以及语音解决方案层出不穷。

毫无疑问,语音交互已经成为人工智能领域最成熟也是落地最快的技术。尤其是深度学习的起势,让语音识别、语音合成以及自然语言处理的发展速度提升到了一个新的高度。

于是乎,各种美化宣传扑面而来!

“XXX产品识别准确率高达99%,识别准确率比肩人类!”

然而,事实并非如此。市面上已有的语音交互产品或多或少都存在一些通病:在特定领域效果不错,但超出指定范围就差强人意了,这样的问题让用户整体体验大打折扣…

语音识别真的比肩人类了吗?各种算法之间该如何选择?如何提升语音交互的用户体验?带着这些问题,云栖社区采访了阿里云iDST智能交互总监初敏,听听她是怎么说的。

51c6931ad8cb4450f0ce10c663b949383825c344

(注: iDST语音识别团队曾在2016年以0.67%的准确率优势击败了世界速记大赛亚军蒋毅,据了解,iDST团队使用了BLSTM算法,这种算法对单位时间内的计算量要求很高,为此他们做了很多针对性的优化工作,才能让这个算法提供实时服务,并第一次在工业界进行了大规模部署。)

以下内容整理自采访录音:

云栖社区:从国内外的趋势来看,语音交互技术的应用越来越多,您认为推动语音技术普及的主要原因是什么?

初敏:语音有两个大的方向在用,第一个把语音当成数据,例如在讲座、法院,或者是客服这些场景中,之前有的会录音,有的不录音,讲完就过去了,而现在这些语音都会记录下来,而且还会识别成文字,这实际上是一个数据积累的过程,我们可以对这些文本化的数据进行各种分析、挖掘和加工等等。

另外一个就是大家更关注的语音交互,语音交互之所以越来越被重视,我觉得是因为互联网、智能硬件的普及。未来智能电视、智能音箱,甚至到以后的日常设备,都可以变成一个互联网的入口,语音就是最简单的,最直接的交互方式,是通用的输入模式。

当然现有的很多语音产品还没有那么成功,我认为虽然现在产品比较多,但是真正好用的,让人经常想用的却不多。

云栖社区:就像您提到的现在语音识别产品用起来其还会有各种各样的问题,要达到真正完全可用的状态我们还需要克服哪些难题?

初敏:我觉得脱离了应用场景讲识别准确率、讲产品根本就是不靠谱的,大家谈到的百分之多少的识别准确率理论上不存在,任何一个准确率都是在特定场景下测出来的,不同的场景测出来不一样,做一套模型在所有场景上都达到非常高的准确率,是不太现实的。

以云栖大会为例,云栖大会的Talk,语音识别准确率基本上能做到95%以上,但如果突然邀请一个特殊领域的讲演者,比如医疗领域,可能就很难达到同样好的效果,因为现有模型在医疗领域的知识积累不够。所以,要把语音技术在各种领域普及开来,能快速针对不同场景进行模型调优和定制变得非常重要,这也是我们下面主要推进的一个方向。

云栖社区:阿里在语音交互上重点做了哪些事?

初敏:这两年来我们其实做了很多工作。

一方面是在算法方面的尝试,语音这两年进步的比较快实际上就是深度学习的成功应用,我们尝试了各种深度学习模型,如DNN、CNN、BLSTM(双向长短时记忆神经网络),特别是在业界最先大规模上线了基于BLSTM的系统。同时,我们也会尝试各种新算法。需要提到的是有些算法比较复杂,实验效果好,但是上线就有些难度,所以我们需要进行大量的尝试。另外,现在这些模型的训练是复杂度挺高的,训练的时间一般会很长,特别是当你的数据特别多的时候。 模型训练的很大一部分任务要由GPU处理,在多台机器上的多块GPU卡上并行训练,才能提升模型优化的效率,因此我们也需要进行一些这种底层基础设施的建设(详见:GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware)。

另一方面,我们也在在建模单元上做一些尝试,传统的做法是对状态建模(通常把一个音素切成三个状态),现在我们成功的使用音素作为建模单元,在准确率保持的前提下,解码效率提升高三到五倍。更大的建模单元也在尝试中。

除了语音识别,我们在语音合成、对话管理,问答等方面也做了很多工作,还包括在不同端上的信号处理,例如麦克风阵列等等都是要去实践的。这样才能完成语音交互的完整过程。

云栖社区:在算法的选择上是怎么考量的?

初敏:算法实际上有很多,DNN是全连接的,CNN是有卷积的,然后RNN基本上是序列的,我们实验最成功的是双向的BLSTM,而现在还是有些其他的选择,包括优化准则方面的变化。最终在线上系统采用什么算法,需要综合考虑,既要看效果,同时还要考虑到计算效率,部署成本等因素。

云栖社区:去年双十一阿里ET语音交互系统有亮相,它还有哪些提升空间?

初敏:ET语音交互系统确实还有改善的空间,我们平常准确率能做到95%、96%的水平,但当时主持人讲的语速太快,准确率也就不尽如人意了。此外,跟主持人交互的自由度方面,也还有很多可以做的事情。

云栖社区:团队做了哪些改善方案?

初敏:要在更多的场景用好就必须要有大量的数据。因为场景的磨合都是和数据有关,数据是什么场景来的,它就可以在这个场景下取得好的效果。之前我们在客服领域的数据特别多(详见:语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用),然后还有一些就手机端的,比如说手淘(详见:阿里小蜜:语音识别、语义分析、深度学习在手机淘宝的实战分享),但是视频类的就会差一些。因此,我们就有针对性的增加数据,同时增加各种可能的背景噪声,在专门优化后,视频里的语音的识别效果就大幅提升了。因此,快速的模型定制对语音技术的广泛应用非常重要。

我们现在花了很多时间研发系统的定制能力,这样用户在系统上提交数据就可以通过我们的自动流程来定制他们的模型,这个模型在他们需要的场景下可以取得比通用模型更好的效果。我们现在很多的工作是从这个角度来看。我认为将来这方面是谁的能力最强,谁就能真正在市场上快速把它用起来。

目前市面上,基本上还没有哪个团队在提供快速定制化服务,我们是非常领先的。

云栖社区:下个月举行的CCAI大会上开设了“语言智能与应用”论坛,针对这一方向,您认为现在学术界和产业界还存在哪些痛点?

初敏:就像你刚才问到的,语音识别宣传得很好,但很多时候用起来还没有预期的那么好,主要是因为技术到产品的落地之间还有很多工作没有做好、做细致。

语音识别不是万能的,随便一接就可以的用的很顺畅的。

技术使用起来往往需要一个迭代的过程的,需要先上线,然后在场景里收集数据去评估,优化模型,改善用户体验。经过几轮迭代,才可以发挥最佳效果。其他AI技术也是相似的。今天很多AI技术的用户很容易把技术的能力理想化,感觉一引入,就应该立竿见影的看到效果。看到实际效果不尽人意时,就会感觉有很大的落差,失望和放弃。所以,我想强调的是,一方面智能语音技术已经达到广发应用的水平,同时在真正落地的时候,要充分认识到可能遇到的困难,有持久战的思想准备。

云栖社区:下个月您会在CCAI语音交互分论坛上分享,作为演讲嘉宾您希望能给开发者带来什么样的帮助?

初敏:语音交互技术在未来三五年内会大规模应用,这是大家都看到的趋势,但是换句话说,大家都希望产品在目标场景中取得好的效果,但现实很残酷,并不是每个人都是算法或者人工智能领域的资深专家,需要一个不断学习和迭代的过程。AI技术的应用是一个系统工程,我们要有足够的耐心去打通产品和体验的优化链路,在应用中不断提升效果。

CCAI大会简介:

CCAI 2017大会由中国科学院院士、中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。报名请戳这里

大会讲师采访:

CCAI 讲师专访 | 机器学习奠基人Thomas Dietterich:人类将如何受到AI威胁

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
3月前
|
人工智能 达摩院 并行计算
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
|
Java 语音技术 开发工具
JAVA对接阿里语音识别引擎
JAVA对接阿里语音识别引擎
831 0
|
JSON 编解码 自然语言处理
阿里智能语音交互文档操作教程
ASR :语音识别服务,提供语音转文本服务。 TTS :文本转语音服务,提供将文本转为普通话语音的语音合成功能。 NLU :自然语言理解服务,提供自然语言处理功能。
1295 0
|
语音技术 机器学习/深度学习
阿里开源新一代自研语音识别模型DFSMN,准确率达96.04%
近日,阿里巴巴达摩院机器智能实验室推出了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库LibriSpeech)。
2388 0
|
监控 物联网 语音技术
1月15日云栖精选夜读 | 重磅公开!阿里语音识别模型端核心技术,让你“听”见未来
阿里妹导读:语音识别技术作为人工智能技术中的重要组成部分,成为影响人机交互的核心组件之一,从各种智能家用IoT设备的语音交互能力,到公共服务、智慧政务等场合的应用,语音识别技术正在影响着人们生活的方方面面。
3108 0
|
机器学习/深度学习 算法 语音技术
重磅公开!阿里语音识别模型端核心技术,让你“听”见未来
阿里妹导读:语音识别技术作为人工智能技术中的重要组成部分,成为影响人机交互的核心组件之一,从各种智能家用IoT设备的语音交互能力,到公共服务、智慧政务等场合的应用,语音识别技术正在影响着人们生活的方方面面。
2400 0
|
机器学习/深度学习 分布式计算 语音技术
重磅!MaxCompute助力阿里开源自研语音识别模型DFSMN,准确率高达96.04%
阿里开源语音识别模型DFSMN 在近期举行的云栖大会武汉峰会上,装有DFSMN语音识别模型的“AI收银员”在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内点了34杯咖啡。此外,装备这一语音识别技术的自动售票机也已在上海地铁“上岗”。
2997 0
|
机器学习/深度学习 语音技术 Python
3月16日云栖精选夜读:显著超越流行长短时记忆网络,阿里提出DFSMN语音识别声学模型
在语音顶会ICASSP,阿里巴巴语音交互智能团队的poster论文提出一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。研究人员进一步将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合,构建LFR-DFSMN语音识别声学模型。
3040 0
|
机器学习/深度学习 语音技术
显著超越流行长短时记忆网络,阿里提出DFSMN语音识别声学模型
在语音顶会ICASSP,阿里巴巴语音交互智能团队的poster论文提出一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN)。研究人员进一步将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合,构建LFR-DFSMN语音识别声学模型。
2874 0