人才为王，语音识别技术并非高不可攀-阿里云开发者社区

人才为王，语音识别技术并非高不可攀

2017-08-01 1729

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

人才为王，语音识别技术并非高不可攀

提及语音识别，就不能不说Nuance，就像提到PC处理器不能跨过intel，智能手机SOC不能忽略高通，Nuance有着辉煌的历史，曾经在语音领域一统江湖，就算现在，仍旧是瘦死的骆驼比马大，仍旧是全球最大的语音技术公司，专利数量和市场份额都遥遥领先。苹果iPhone手机的虚拟语音助手Siri（风传放弃）、三星的语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手，都采用了Nuance的技术。Nuance曾经很热门，三星和苹果都和它传过绯闻，都要收购它，不知道为什么，都无疾而终。

Nuance的语音技术是以统计推断方法为基础，着眼于音素（音节的声音）和语境来识别话语。在识别的方面，在引擎和算法技术方面Nuance领先一个层次。毕竟有着多年的积累。

但是，在具体应用上，差距就没有那么大了——语音识别技术并非高不可攀，好的语音识别系统，很大程度上依靠经验，专利和算法什么的并没有多重要。所以只要Google们挖到牛人，自主研发出不逊于Nuance的语音识别技术并非难事——因为大家的纯识别率都在一个水平线上，差不多都达到了当前技术（主要是Nuance采用的技术）的极限，差距不再可感，但再往上走，如果基于当前的技术，路会越走越窄。如果考虑到周围环境的噪音、用户发音不准、方言等等因素，这种技术的前景并不乐观。这个时候就要从另外一个角度考虑问题了——语义理解。

语音交互，主要取决于两点：语音识别，和语义理解。

举一个例子，张飞张翼德在长坂坡嚎了一嗓子，我想，五湖四海出身的曹军们没有多少人能辨清楚张三爷的每一个字（就不信汉朝没有方言，就不信张飞说话不方言，就不信有多少人能听得懂张飞的方言），他们没有100%听清楚，但是，他们听懂了，然后害怕了，于是，撤退了。为张飞的名声添砖加瓦。

在日常生活当中，如果只从语音出发，我们根本没有可能听懂XX牌普通话，但是我们还是听懂了，更能用另一种牌子的普通话和他交流。这就涉及到语义理解。

有了语义理解的突破，语音识别才能脱离桎梏，更上一层楼。

关于语义理解，目前一门技术正火，神经网络。这是一种十分炫酷的技术，将机器学习的方式模仿人类大脑的神经元，当处理的语言越来越多时，这种网络就可以逐渐理解语言。实验结果发现，这种技术可使得精确度提升25%以上，这是一个巨大的飞跃，因为这个行业只需要提升5%就具备革命意义。目前，谷歌的Google Now、微软的Cortana都采用了这种技术。人工智能大师杰弗里·希尔顿（Geoffrey Hinton）在2013年初加盟谷歌。此外，谷歌还挖走了Nuance的一些职员，其中包括在2004年挖走Nuance联合创始人迈克·科恩（Mike Cohen），让他出任谷歌的语音技术总监。至于微软，我只有一句话，微软研究院里的大牛们真的是大牛啊。感兴趣的可以查一查微软在这方面的技术。

对于Google而言，语音是生死攸关的大事。想象一下，十年或者五年后的某一天，我想登录雷锋网(公众号：雷锋网)，可我一如既往的记不住雷锋的域名，只需要对着麦说一句：“登录雷锋网”，如果我想搜索什么东西，直接说就可以了。如果没有语音服务，那么，Google如何自处？微软的bing会不会咸鱼翻身？所以，Google有必要自己做。这种涉及生死的技术，还是掌握在自己手里比较踏实。

Google和微软都参合了，苹果当然不会落后。来自Wired 的消息，苹果正在着手更换掉 Nuance，打算用自己研发的语音识别技术，最快可能在iOS 9中亮相。在过去几年，苹果不仅吸纳了Siri的语音技术人才，更是将Nuance公司的多名高级语音研究人员挖角过来，包括了前研发副总裁Larry Gillick，以及来自微软语音识别项目高管Alex Acero，后者在微软工作达 20 年之久。苹果打算利用神经网络来提升语音识别率，微软研究部门主管 Peter Lee 认为，苹果大约需要花6个月才能赶上Google 和微软。2013年，苹果悄悄收购了一家语音识别技术公司Novauris Technologies，价格未知。Novauris公司以语音识别著称，由其推出的产品和语音识别系统并非简单的识别单个的词句，而是理解上下文。Novauris 也成推出一个名为 Novasystem 的分布式服务器语音识别系统，可同时处理多个并发语音请求，识别完整的句子，并分析音节结构。

说完国外，再说说国内。

科大讯飞是nuance的国内版，同样的一览众山小，当然，国内的语音识别企业不只科大讯飞一家，还有中科信利，尚科语音，捷通华声等等。百度、腾讯都在打造自己的语音团队。百度看起来最高大上。吴恩达加盟，担任百度的首席科学家，负责百度研究院，他的研究领域就是机器学习和人工智能，研究重点是深度学习（deep learning）。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。吴恩达也是牛人一枚。

看过国外百舸争流，再对比国内的欣欣向荣，在不入流的算命先生都能得出结论，语音是个大热门，是未来的趋势。

这个趋势是实实在在的，不是吹起来的泡沫。

人类打成为人类以来就使用声音，声音已经融入我们的身体，成为一种本能，它是最优的表达方式，这也就是为什么iPhone4s能够在普遍看衰的情况下大卖的关键，所有人都低估了siri，低估了人们对人机交互模式从键盘升级到声音的渴望。

在未来，也许就是不久的未来，智能家居（通过微软的cortana，已经可以实现语音开灯关灯拉窗帘。这不是Google now和siri无能，完全是因为微软开放了API，Google now和siri没有开放）、驾驶等等领域。人机交互的领域越来越广，语音的前景必将大到不敢想象。想象一下，当互联网发展到无处不在时，人们随时随地都在互联网之中，人机交互甚至可能会是时时刻刻，语音会是一个多么大的市场。

什么？你说脑波？

我觉得脑波这玩意和幸福、上帝一样，你相信它存在，它就存在。

本文作者：焱真人

本文转自雷锋网禁止二次转载，原文链接