MIT开发听觉神经网络模型，学会从2秒片段识别音乐类型-阿里云开发者社区

MIT开发听觉神经网络模型，学会从2秒片段识别音乐类型

2018-04-24 1163

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 麻省理工学院(MIT)的研究人员利用机器学习算法中的深度神经网络，创造出了第一个可以在识别音乐类型等听觉任务上模拟人类表现的模型。

该模型由许多信息处理单元组成，通过输入大量的数据来训练此模型，以完成特定的任务。研究人员利用该模型来阐明人脑是如何执行同样的任务的。

Josh McDermott说：“这些模型第一次给我们提供一个能够执行对人类有意义的感官任务的机器系统，并且是在人类的水平等级上进行这项工作。”他是麻省理工学院大脑和认知科学系的神经科学Frederick A.和Carole J. Middleton的助理教授，也是这项研究的资深作者。 “从历史上看，这种感官的处理方式很难理解，部分原因是我们没有一个非常明确的理论基础，也没有一个很好的方法来对可能正在发生的事情进行开发建模。”

这项研究发表在4月19日的《Neuron》杂志上，这项研究也证明了人类的听觉皮层排列在在一个等级分明的组织中，就像视觉皮质一样。在这种类型的排列中，感官信息经过连续的处理，基本信息处理得更早，而像单词含义一样的更高级特征在后期处理。

麻省理工学院研究生Alexander Kell和斯坦福大学助理教授Daniel Yamins是论文的主要作者。其他作者是麻省理工学院前访问学生Erica Shook和前麻省理工学院博士后Sam Norman Haignere。

大脑建模：模型学会了像人类一样准确地执行任务

当神经网络在20世纪80年代首次出现时，神经科学家们希望这种系统可以用来模拟人脑。然而，来自那个时代的计算机不够强大，无法建立足够大的模型来进行一些实际任务，如物体识别或语音识别等。

在过去的五年里，随着计算能力和神经网络技术的进步，使用神经网络来执行这些困难的现实任务已经成为一种可能，而且它们已经成为许多工程应用程序中的标准方法。与此同时，一些神经科学家对这些系统是否能够来模拟人脑进行了重新审视。

Kell说：“这对于神经科学来说是一个激动人心的机会，因为我们可以创造出可以代替人类来执行某些工作的系统，然后我们可以对这些模型进行测试并将它们与大脑进行比较。”

麻省理工学院的研究人员训练他们的神经网络来执行两个听觉任务，一个涉及语音，另一个涉及音乐。在语音任务中，研究人员给模型提供了成千上万的两秒钟长的录音。任务是识别音频中单词。在音乐任务中，该模型被要求识别那些两秒钟音乐片段的类型。每个片段还包括背景噪音，使任务更加现实也更加困难。

在完成了成千上万的数据训练之后，模型学会了像人类一样准确地执行任务。

Kell说：“这个想法是随着时间的推移，模型在任务中变得越来越好。希望它正在学习一些一般的东西，所以如果你给模型输入一种它以前从未听过的新声音，它会做得很好，这已经在实验中得到了证明。”

该模型还倾向于在人类最容易犯错误的片段上犯错误。

组成神经网络的处理单元可以以多种方式组合在一起，形成可以影响模型的性能的不同模型结构。

麻省理工研究团队发现，这两项任务的最佳模型是将处理分为两组阶段。第一阶段是在任务之间共享的，但在此之后，它分成两个分支，用于进一步的分析：一个用于语音处理任务，另一个用于音乐处理任务。

分级的证据：初级听觉皮层和其他有区别

然后，研究人员用他们的模型对一个长期存在的关于听觉皮层结构的问题进行了探索：它是否分级。

在分级系统中，一系列的大脑区域在流经系统的感官信息上执行不同类型的计算。有证据表明，视觉皮层有相同类型的组织结构。前期的区域，被称为初级视觉皮质，对简单的特征如颜色或方向做出反应。后端的区域则执行更复杂的任务，如对象识别。

然而，很难测试这种类型的组织是否也存在于听觉皮层中，部分原因是没有一个好的模型来对人类的听觉行为进行复制。

McDermott说：“我们认为，如果我们可以构建一个和人类执行同样任务的模型，我们就能够比较将模型不同阶段的不同部分与大脑进行比价，这样可以得到一些证据来证明大脑中的一些部分是否是分级的组织。”

研究人员发现，在他们的模型中声音的基本特征，如频率在早期阶段更容易被提取。当信息在神经网上不断向后传输的过程中，一些基本特征越来越难提取，而更高层次的信息，例如词的含义变得更容易提取。

为了验证模型阶段是否可以复制人类听觉皮层处理声音信息的方式，研究人员使用了功能性磁共振成像(fMRI)来测量大脑处理真实声音时听觉皮层的不同区域。然后，他们比较了在处理相同的声音时，大脑和模型的区别。

他们发现，模型的中间阶段与大脑初级听觉皮层的活动相似性最高，随后的网络与初级皮质以外的活动相呼应。研究人员说，这为听觉皮层以一种类似于视觉皮层的分级方式排列提供了证据。

McDermott说：“我们非常清楚地看到，初级听觉皮层和其他所有东西之间的区别。”

作者现在打算开发一种可以执行其他类型的听觉任务的模型，例如特定声音的发声位置定位，来探讨这些任务是否可以通过本文中发现的思路来完成，或者说其他的一些任务通过对人脑进行研究，以获得新的思路。

原文发布时间为：2018-04-24

本文作者：小潘

本文来自云栖社区合作伙伴新智元，了解相关信息可以关注“AI_era”。

原文链接：MIT开发听觉神经网络模型，学会从2秒片段识别音乐类型

MIT开发听觉神经网络模型，学会从2秒片段识别音乐类型

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景