DeepMind详解新WaveNet:比原来快千倍,语音更自然 | 附论文

简介:
本文来自AI新媒体量子位(QbitAI)

8f9d299f496059bc618c6b52f16266356aea716a

上个月,Google Assistant英语和日语版终于用上了DeepMind一年前推出的语音合成算法:WaveNet。

从算法研究出来到用在产品里,为什么隔了一年多的时间呢?DeepMind说,WaveNet在去年论文发布的时候还只是个研究用的原型,对于消费类产品来说,它消耗的计算力太多了。

于是,DeepMind用一年时间为这个语音合成算法打造了升级版:并行WaveNet(parallel WaveNet),运行速度比原版快1000倍,语音质量也有所提升。

为了介绍升级版模型的细节,以及让整个系统能够在大规模并行计算环境中运行的概率密度蒸馏(probability density distillation)技术,DeepMind同时还公布了一篇论文:

Parallel WaveNet: Fast High-Fidelity Speech Synthesis

Aaron van den Oord, Yazhe Li, Igor Babuschkin, Karen Simonyan, Oriol Vinyals, Koray Kavukcuoglu
George van den Driessche, Edward Lockhart, Luis C. Cobo, Florian Stimberg, Norman Casagrande, Dominik Grewe, Seb Noury, Sander Dieleman, Erich Elsen, Nal Kalchbrenner, Heiga Zen, Alex Graves, Helen King, Tom Walters, Dan Belov, Demis Hassabis

地址:https://deepmind.com/documents/131/Distilling_WaveNet.pdf

原版WaveNet模型用自回归连接来一个样本一个样本地合成声音波形,每一个新样本受前一个样本制约。按照这样的序列生成方法,每秒能够生成24000个样本,要部署到实际产品上还是太慢了。

ede012ea3cd67a69be90b4bc937be71a9591dc19

 原版WaveNet逐个生成波形样本

为了解决这个“太慢了”的问题,就需要一种能够一次生成长序列样本,又不用牺牲质量的方法。DeepMind所用的,就是上面提到的概率密度蒸馏。

概率密度蒸馏法就是用一个经过完全训练的WaveNet模型作为“教师”网络,把自己的能力教给一个“学生”网络——更小、更平行、更适用于现代计算机硬件的神经网络。

学生网络是一个比较小的dilated CNN,和原始WaveNet结构差不多。但二者有一个关键的区别:在学生网络中,每个样本的生成不依赖于任何已生成的样本,这就意味着从第一个词到最后一个词,以及中间的整个句子,我们都可以同时生成出来,如下图所示:

d1ae7efdbe9bb5c6b622150a718df9c861b81858

 新WaveNet模型以白噪声为输入,并行合成所有样本

在训练过程中,学生网络从随机状态开始,被输入随机的白噪声,它的任务是里输出一串连续的声音波形。

然后,生成出的声音波形被输入到以训练的原始WaveNet模型(也就是教师网络)中,教师网络给每个样本打分,给出一个信号来让学生理解这个样本和教师网络所要求的输出相差有多远。

这也是一个通过反向传播来对学生网络进行调参的过程,让学生网络学会自己该生成什么样的声音。话句话说,就是教师和学生网络都为每个声音样本的值输出一个可能的概率分布,而训练的目标是最小化二者之间的KL散度(KL divergence)。

这种训练方法和生成对抗网络(GAN)的设计可以平行比较,学生的角色就相当于GAN里的生成器,而教师相当于鉴别器。与GAN不同的是,学生的目标不是“骗过”教师,而是与教师合作,尝试达到与教师差不多的性能。

尽管这种训练方式效果不错,但我们还是需要再加上一些额外的损失函数,才能让学生达到我们所需要的水平。

我们添加了感知损失(perceptual loss)来防止产生不好的发音,用contrastive loss来进一步消除噪音,用power loss协助匹配人类语音的能量。

这些损失函数都是很有用的,比如说如果不加power loss,模型合成的语音就都是耳语,而不像人类大声说话的声音。

把上述方法都用上,我们训练出的并行WaveNet所合成的语音,就能够达到和原始WaveNet相同的质量,见下表所示的平均意见分(MOS):

9fc559515ecac4c236fcf5635c70a26d8eddd324

MOS这个评分体系,让人类被试用1-5的数字来衡量语音听起来有多自然。特别需要说明的是,真人的语音的MOS评分也只有4.667。

当然,让WaveNet符合实际产品应用所需的速度和质量,需要很多步骤,概率密度蒸馏只是其中之一。

为了将并行WaveNet整合到Google Assistant的服务流中,DeepMind应用团队和Google语音团队都需要付出同样多的工程努力,两个团队共同努力12个月,才能够把WaveNet这项基础研究用到谷歌的大规模产品中。

最后,附上相关文章地址:

DeepMind博客文章地址:https://deepmind.com/blog/high-fidelity-speech-synthesis-wavenet/

Parallel WaveNet论文:https://deepmind.com/documents/131/Distilling_WaveNet.pdf

原版WaveNet论文:https://arxiv.org/pdf/1609.03499.pdf

本文作者:夏乙 
原文发布时间:2017-11-23 
相关文章
|
4天前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
11 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
1月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
18 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
11月前
|
编解码 人工智能 自然语言处理
ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿
ChatGPT爆火之后,视觉研究者坐不住了?谷歌将ViT参数扩大到220亿
131 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发
DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发
204 0
|
11月前
|
机器学习/深度学习 达摩院 前端开发
INTERSPEECH 2022论文解读|针对多方会议场景下说话人相关语音识别的对比研究
INTERSPEECH是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。 ‍本文主要对比研究三种SA-ASR的方法,通过对说话人日志、语音分离和语音识别模块的耦合,在M2MeT竞赛上发布的真实会议场景语料库AliMeeting上进行了相关实验,有效地降低了说话人相关字错误率(SD-CER)。论文已被INTERSPEECH 2022接收。
311 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列
超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列
|
11月前
|
人工智能 自然语言处理 算法
语言学家重出江湖!从「发音」开始学:这次AI模型要自己教自己
语言学家重出江湖!从「发音」开始学:这次AI模型要自己教自己
103 0
|
机器学习/深度学习 人工智能 自然语言处理
20分钟,AI写出的论文轻松得A!学校检测算法也拿它没辙,学生:GPT-4啥时候出?
现在,越来越多的教授对学生的印象逐渐停留在了他们的专业和优秀的课程论文上。
253 0
20分钟,AI写出的论文轻松得A!学校检测算法也拿它没辙,学生:GPT-4啥时候出?
|
机器学习/深度学习 传感器 机器人
DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下
人类能够模仿别人的行为,根据给定的目标来规划自己的行动。DeepMind最近发布了一个新模型,赋予机器人相同的能力,最终生成的模型与操作器、任务都无关,具有更好地通用性。
158 0
DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下
|
机器学习/深度学习 人工智能
AI也能作曲!OpenAI神经网络能生成任何流派音乐
据外媒报道,人工智能(AI)技术生成的音乐会给人以非常奇妙的体验,这其中有两个原因:第一,这是个非常吸引人的全新领域;第二,我们真的不知道它会走向何方。然而,AI技术实际上在音乐和商业上的应用都很有趣。