深度 | 深度学习这么神奇，为什么仍奈何不了语音转录？-阿里云开发者社区

在这个科技公司不断推出新形式的魔法般的日常技术的时代，还有一个看起来尚未解决的问题：长篇转录（long-formtranscription）。当然，文件的语音听写（voice dictation）已被 Nuance 的 Dragon 软件征服。多亏了自我学习的递归神经网络和其它 21 世纪的神奇技术，我们的手机和智能家居设备已可以理解相当复杂的命令。但是，为长段的实际人类对话提供精确转录的任务仍然超出了今天甚至最先进的软件的能力。

当这一问题能得到大规模地解决，那就可能解锁口述历史的浩瀚档案，让追求速度的读者（太长了就不听）可以更容易消化播客(podcast)内容，而且它还能成为改变各地记者的世界的福利，解放美好生活中宝贵的几个小时。它能让人使用文本来搜索 YouTube。对研究者而言它就像是幻想变成了现实，但对其他人而言，它会带来一个有新形式文本全景监狱（panopticon；译者注：全景监狱指有全方位监控手段的监狱，犯人的一切都处于监控之中；尽管实际上完全监控是不可能的，但因为潜意识里被注视，犯人会保持安分）的反乌托邦（美泰公司语音识别驱动的「你好芭比」已能够侦听与它玩的孩子，这样的反乌托邦可能已经存在了）。研究者声称可用的转录技术只是一个时间问题，尽管到底需要多少时间还是一个未知数。

为长段的实际人类对话提供精确转录的任务仍然超出了今天甚至最先进的软件的能力。

「我们过去常开玩笑说，语音识别要么是可以解决的，要么是不可能的，这要看你问的是谁了。」隶属于加州大学伯克利分校的国际计算机科学研究所（ICSI）音频和多媒体实验室主管 Gerald Friedland 说，「事实介于两者之间。」与说话者无关的自然的人类语音的转录的未来会是怎样？关于它的答案的范围表明这个玩笑属于一类「因为真实所以可笑」的笑话。

「如果你让人来转录电话上的对话语音，错误率大约为 4%。」微软一位资深科学家黄学东说，他的牛津计划为萌芽中的语音识别企业家提供了一个可以使用的公共 API。「如果你将所有系统结合到一起——结合 IBM 和谷歌和微软以及所有最好的——让人惊讶的是这个错误率将达到大约 8%。」黄学东还估计商业上可用的系统的错误率大概接近 12%。「这没有人类那么好，」黄学东坦言，「但这是语音界所能做到的最好的。其糟糕程度大约是人类的两倍。」

但黄学东很快补充说就算和五年前的这一领域进行比较，这样的错误率也是非常了不起的。而且现在已经到了开始让他对听觉感到兴奋的时候了。

从 80 年代初在北京的清华大学开始，30 多年来黄学东一直在研究语音识别的问题。「我们有这个与计算机进行自然对话的梦想，」黄学东说，还列出了1995 年在卡内基梅隆大学 Raj Reddy 的开创性的实验室以及在微软开始的一长串「魔法时刻」和标杆事件。黄学东参与了这一过程，并在 2014 年 1 月的《Communicationsof ACM》期刊上发表了一篇与 Reddy 和 DragonSystems 公司的 Jim Baker 合著的论文《语音识别的一个历史视角》。

「十年前，（错误）率大概是 80%！」他说，「接下来有一个从80% 到 10% 的错误减少，而现在我们在接近 8%！如果我们能在接下来 2 或 3 年保持这一趋势，肯定会发生一些神奇的事情。预测未来总是很困难的，但基于这一领域而不是某个个人的历史数据和跟踪记录……在未来 2 或 3 年内，我认为我们将在一个典型的移动手机配置上接近人类的语音转录水平。」

百度机器学习团队的一位研究科学家 Carl Case 正在为这个中国的网络巨头开发自己的语音识别系统 Deep Speech。

「我们使用最先进的英语和汉语语音系统在 Deep Speech 中取得了一些非常良好的进展，」Case 说，「但我仍然认为要从『在一些背景对一些人可用』到真正对你我之间的这场对话同样可用（从未见过面，通过一个相对嘈杂的电话线，但相互理解并没有问题），还有一些工作要做。」Case 及其同事已经在有风的、背景中播放着音乐和其它不利条件下的汽车中测试他们的技术了。和他们微软的同行一样，他们也向公众发布了他们的 API，部分是以科学的名义，还有部分是因为它得到的用户越多，它就会变得越好。

话语的经济

对于自由职业者和其他类型的想要转录却无力负担每分钟 1 美元的传统转录员的人来说，解决方案是存在的。但是，它们都不是完全完美的。程序员（偶尔也给 Wired 投稿）Andy Baio 写了一个可以将音频采访切割成 1 分钟的片段的脚本，然后该脚本会将这些片段上传到亚马逊的 Mechanical Turk，然后将转录这些一分钟片段的工作外包给一组人类。它是节省了金钱，但却需要一些不可小看的准备和整理。（Casting Words 似乎已经建立了一个基于同样技术的商业模式，但其收费还是回到了每分钟 1 美元。）为了更容易操作众包接口，还有一个共享经济时代的网站TranscribeMe——由一个小型的人工转录者大军提供转录，他们听从该公司的召唤「货币化你的空闲时间（monetizeyour downtime）」。

Google Docs 为有兴趣进行测试的人提供了一个内置的免费可用的语音转录工具。你可以在你的计算机上播放录制好的音频，该系统将会尽可能好地在一个谷歌文档中得到合适的文本。但在为本文而使用 Skype 录制的 5 次电话采访中，仅仅只有一个被认为说得足够慢和清晰而可识别转录成文本，其错误率大约为 15%。那些只想转录播客的人可能会有更好的运气。

尽管目前已有的转录技术不能处理有多种声音或背景嘈杂的音频，但像 Nuance 的 Dragon NaturallySpeaking （也是卡内基梅隆大学 Reddy 的实验室的产物）这样的可靠软件在处理经过训练的单一语音上已具有相当好的能力。《Speech Technology》杂志编辑部主管 David Byron 提出了一种叫做「parroting（鹦鹉学舌）」的技术：实时听录音并用麦克风将其重复录入以用于软件进行转录。这节省了一些打字工作，但还远远不够即时——而且还会迫使采访者重温他们最尴尬的采访时刻。

语音障碍

Roger Zimmerman 是一位怀疑长篇转录技术即将实现的人，他是 3Play Media 公司研发部门主管，该公司可能是目前唯一一家提供自动长篇转录商业应用的公司。Zimmerman 说他们使用了一些不能透露的供应商的 API 的组合，3Play 最初的转录平均有 80% 的准确度——有时会多一点，有时会少一点——并在被发送给客户之前还会用人类转录员进行校对。「语音识别技术还远远没接近人类的能力，」Zimmerman 说，「而且很多很多年内都不能达到，我的猜测是还需要几十年。」「人们不像文本一样说话，」Zimmerman 说，自 1980年代他在麻省理工学院下属的Voice Processing Corporation 找到一份工作以来，他就一直在研究语音技术。「我已经犹豫过，我已经纠正过，我已经回来并重复了，而在无组织性的自然语音上，这种语言模型并不适合。这是其中薄弱的组成部分。这是现在依赖于基本的人工智能的系统的组成部分。他们用声学建模已经实现的是信号处理方向的任务，而且这些新的深度神经网络有很好的框架设计，他们在解码一个声学信号时理解他们正在做的事，但他们并不真正了解要模仿人类的语言交流过程一个语言模型需要做什么。他们在使用数字运算来解决高很多的尚未得到真正解决的人工智能问题。」

但 Jim Glass 认为「这并没有那么难」，他是麻省理工学院的一位高级研究科学家，领导着口语系统（Spoken Language Systems）研究组，他同时还是 3Play 的一位顾问。Glass 说，事实上这项技术已经有了。「思考这个问题的方式是（问）你的需求所能容许的错误率是多少，所以如果你过一遍这个转录过程后还会跳回到音频上进行验证，你可能愿意容忍一定的错误量。今天的技术已能足够好的做到这一点了。需要有人来决定他们想让这项能力可用。」

「历史上，语音技术的部分问题是公司们在寻找如何从中牟利的方法，而我不知道它们是否已经知道了该怎么样去做。」Glass说，他指出现在已有一些提供给想在这一新兴领域有所作为的开发者的工具包了。

丰富的探讨

尚未被结合到 Google Voice 这样的商业可用的转录技术中的部分是「两方分类（two party diarization）」，即一种可以确定说话人和说话内容的独立于说话者的系统。一个人讲清楚是一回事，但参与到活跃对话中的两个人则完全是另一回事。而这至少在科学研究的疆域内是一个已经得到了部分解决的问题。有一个专门针对于此的领域：富转录（rich transcription）。2012 年，电气和电子工程师协会（IEEE）将它们《Transactions on Audio, Speech, andLanguage Processing》期刊的一整期都奉献给了「富转录中的新前沿」。

历史上，语音技术的部分问题是公司们在寻找如何从中牟利的方法，而我不知道它们是否已经知道了该怎么样去做。

Gerald Friedland 说，在一个相对清楚的电话线上，目前的技术可以 98% 的准确度识别说话人。Friedland 在非营利性的 ICSI 中领导着分类项目（diarization project），该组织参与了美国国家标准和技术协会运营的试验。通过会议记录项目（Meeting Recorder Project）测试群体录音的情形，ICSI 确认一旦麦克风不再是手机提供的那种近程类型时，错误率将跃升至 15% 到 100% 之间。Friedland指出一旦现在很多研究者研究的相对清楚的广播新闻语音转录为长篇文本的问题得到了解决，这种范围的问题就必须得到处理。

他说：「如果你将你的手机放在桌子上，想尽可能地录下被说出的一切，然后再尝试转录它，你将遇到很多这些问题的组合：新词汇（话语）、鸡尾酒会噪音问题、常见噪声、人们说话重叠和人们从不完美地说话。它会有咳嗽声和笑声，还可能有大喊大叫，也可能有窃窃私语。它变得非常多样化。」在分类研究的失败测试中常常导致混乱的两个声音频谱是儿童和老人的声音。

「你可以结合这些场景，」他说，「我认为这一切保证了就像人类一样听懂的完美的语音识别器不会在一个可预见的时间内实现。你和我可能看不到那一天。」

这不应该被解读成：意味着我们不是生活在一个语音技术的黄金时代。这个月，Friedland 帮助在 Kickstarter 上推出了 MOVI，一个基于 Arduino 的且无需使用云就能运行的语音识别器/语音合成器。「它不使用互联网，」Friedland 说，「要做识别，你不一定需要使用云。它有几百个句子就能工作，而且它能适应。」他嘲笑了索尼、苹果、谷歌、微软等将语音发送到云中进行处理的公司。「所有这些都在利用人们认为（语音识别）是非常困难的，所以需要在云端完成的事实。如果你有一个对着计算机说话的扬声器，我们应该就能认为这个问题已经得到了解决。」

对于目前而言， Friedland 说，大部分转录创业公司都授权使用了谷歌的 API 并以此作为开始。但这一领域和市场对每一层次的创新都是敞开的，只要一个项目取得了成功，那就会有各种离奇的前所未见的社会变化到来。

本文来源于"中国人工智能学会",原文发表时间"2016-05-26"

深度 | 深度学习这么神奇，为什么仍奈何不了语音转录？

热门文章

最新文章

相关课程

相关电子书

相关实验场景