语音识别:市场前景可观,但核心技术仍需突破

简介:

在CES 2017之后,语音识别成为了众人的关注焦点,而在市场规模扩大的背后,语音识别还不能完全满足人类的需求。

随着人工智能产品在生活中的渗透率越来越高,其中技术的发展也成为了众人关心的重点所在。作为人机自然交互的基本途径之一,近期以来,语音识别的发展不可谓不快速。

当下,诸如科大讯飞、百度等多家企业声称,其研发的语音识别技术已经达到了97%的准确率。而在日前,谷歌研究员公开表示其语音识别的错误率(将一个词语从语音转录成为文字时的错误率)自2012年以来已经降低了30%以上……纵观过去的2016年,谷歌、苹果和微软等多家科技巨头都公布了自己在语音识别上的进展和突破,而在接下来的时间里,语音识别也将是2017年的发展重点之一。

市场前景可观,而语音识别仍需突破

新兴产业市场广阔,推动语音识别技术发展

在刚刚过去不久的CES 2017展会上,我们见到了许多人工智能产品,要是来一场评比大赛,自动驾驶和智能家居绝对是主角。不过,再往深究,语音识别技术才是此次展会人工智能部分的“亮点”。

市场前景可观,而语音识别仍需突破

智能家居

在智能家居,不管是智能家电还是机器人,语音识别技术都是必备的基本功能之一。据知名市场调研公司《Markets And Markets》发布的调查报告称,全球智能家居市场规模将在2022年达到1220亿美元,2016-2022年年均增长率预测为14%。而在机器人方面,研究机构IDC预测,至2020年,全球机器人与相关服务市场规模将由2016年的915亿美元增至1880亿美元。从这两点数据来看,可想而知未来智能家居的市场之大。

在控制方式上,除了部分智能家电之外,语音控制已经成为了市场的主流,而这就是语音识别市场的商机。未来,作为人机自然交互的前提之一,语音识别必然是智能家居的发展趋势,只有语音识别的准确率接近完美,人机的自然交互才能继续开展。在智能家居市场的推动下,语音识别技术必将成为重点发展对象。

市场前景可观,而语音识别仍需突破

智能汽车

在CES 2017展会上,各大传统汽车制造商都带来了自己在自动驾驶汽车的最新成果。与此同时,在展会上,除了展示成果,不少厂商也宣布了自己的一系列计划,其中就包括在汽车中加入虚拟助手平台,以促进人车交互,进一步提升用户体验,比如日产、宝马与Cortana的合作,还有福特与Alexa的联手。

根据美国市场研究机构勒克斯的研究报告显示,自动驾驶汽车将在2030年创造价值870亿美元的市场。此外,另有研究显示,2030年全球范围将售出约1.2亿辆自动驾驶汽车。从数据来看,自动驾驶汽车的市场十分具有看头。

自动驾驶市场的推动下,人车交互也成了自动驾驶玩家的一个关注点,是汽车智能化的一部分。此外,相对于自动驾驶辅助技术,语音识别等交互技术的实现则容易得多,目前也已有不少车型搭载了语音识别技术。在智能汽车中,语音识别已经成为了一项基础的服务,而随着智能化时代的来临,人们对语音识别的要求也会进一步提升。

市场前景可观,而语音识别仍需突破

未来市场可观,而语音识别仍需“做事”

在新兴产业市场需求的推动下,语音识别的市场也是十分具有看头的,有研究机构指出,预计到2020年,全球语音识别的市场规模将从2015年的61.9亿美元增长到200亿美元。然而,在市场规模壮大这一美好的预测面前,我们也不能忽视一些需要面对的问题,只有解决了它们,语音识别才能得到完善,给用户带来极致服务。

市场前景可观,而语音识别仍需突破

首先就是对象识别的准确性。现在,在应用上,我们看见语音识别多是在智能家居领域,包括智能家电和服务机器人。此时,我们就要考虑一个问题了,当多个家庭成员同时讲话时,智能家电和服务机器人该执行谁的命令呢?它们又如何能在众声音中找出自己主人的命令?这些都是当前语音识别所需要解决的问题,毕竟我们通常所说的语音识别不仅仅只是单纯的对语音内容进行识别。

在这个问题上,人们也找到了一个解决方案——声纹识别。一般来讲,声纹具有唯一性,对说话人身份的确认有着极大的帮助。借助于声纹识别,语音识别能够准确对说话人的位置和身份进行定位,从而准确识别语音内容,执行其中下达的指令。不过,鉴于数据的极大空缺等问题,声纹识别技术还需完善。

市场前景可观,而语音识别仍需突破

其次是降低周边环境的干扰。对于人类来讲,在嘈杂环境中听别人说话或是从众多声音中找出自己想听的内容还是一件较为简单的事,而与此相反,这件事在机器这里并没有那么容易。

为了降低周边环境对语音识别的干扰,亚马逊和谷歌都在智能音箱中使用了麦克风阵列技术,从而起到一定的“降噪”作用,增加语音识别的准确率。不过,到目前为止,环境的干扰依然没有得到更好的解决,仍然是语音识别前进道路中的一只“拦路虎”,尤其是在多段语音中准确找出指定说话人的情境中。

市场前景可观,而语音识别仍需突破

在一次采访中,人工智能和机器学习权威学者、百度首席科学家吴恩达表示,2017年是“对话式电脑”快速发展的一年。对话式电脑,诸如聊天机器人、人工智能虚拟助手之类,作为展开对话的第一步,语音识别也属于这快速发展的一部分。

智能家居智能汽车等多种产业以及聊天机器人、虚拟助手这些产品市场的推动下,语音识别的市场正在不断扩大,同时也是对它准确性的一个挑战。

2016年,在语音识别内容的准确率上,各科技企业和团队都有了相应的突破,而在接下来的一年里,如何降低周边环境的干扰以及如何提高对声音的识别准确率将是语音识别所要解决的问题。


原文发布时间: 2017-01-16 18:23
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
API 语音技术 Python
Python 技术篇-百度语音识别API接口调用演示
Python 技术篇-百度语音识别API接口调用演示
378 0
Python 技术篇-百度语音识别API接口调用演示
|
机器学习/深度学习 数据采集 人工智能
【技术揭秘】高性能粤语语音识别模型构建方案
随着人工智能技术的飞速发展,语音识别(Automatic SpeechRecognition)的应用越来越广泛,对于多语种多口音语音识别的需求也在日渐增加。虽然语音识别系统的基本原理和框架是不受限于语种的,在建立一个新语种的ASR模型时,还是需要结合到语言本身的特点,才能得到较好的效果。
【技术揭秘】高性能粤语语音识别模型构建方案
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
语音识别技术的原理与应用
语音识别技术的原理与应用
|
4月前
|
机器学习/深度学习 自然语言处理 人机交互
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
139 0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
听懂未来:AI语音识别技术的进步与实战
听懂未来:AI语音识别技术的进步与实战
147 0
|
9月前
|
人工智能 编解码 API
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
|
10月前
|
语音技术 信息无障碍
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
回到我们的直播源码平台开发上来,对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一,好了,正式进入我们今天的主题内容:直播源码搭建平台技术知识:实时语音识别字幕呈现功能!
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
|
11月前
|
机器学习/深度学习 达摩院 算法
Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率
Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率
227 0
|
机器人 语音技术 开发工具
智能电话机器人,使用Microsoft语音识别技术(Speech sdk)
智能电话机器人,使用Microsoft语音识别技术(Speech sdk)
170 0
智能电话机器人,使用Microsoft语音识别技术(Speech sdk)
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
43715 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术