MIT开发听觉神经网络模型,学会从2秒片段识别音乐类型

简介: 麻省理工学院(MIT)的研究人员利用机器学习算法中的深度神经网络,创造出了第一个可以在识别音乐类型等听觉任务上模拟人类表现的模型。

该模型由许多信息处理单元组成,通过输入大量的数据来训练此模型,以完成特定的任务。研究人员利用该模型来阐明人脑是如何执行同样的任务的。

Josh McDermott说:“这些模型第一次给我们提供一个能够执行对人类有意义的感官任务的机器系统,并且是在人类的水平等级上进行这项工作。”他是麻省理工学院大脑和认知科学系的神经科学Frederick A.和Carole J. Middleton的助理教授,也是这项研究的资深作者。 “从历史上看,这种感官的处理方式很难理解,部分原因是我们没有一个非常明确的理论基础,也没有一个很好的方法来对可能正在发生的事情进行开发建模。”

这项研究发表在4月19日的《Neuron》杂志上,这项研究也证明了人类的听觉皮层排列在在一个等级分明的组织中,就像视觉皮质一样。在这种类型的排列中,感官信息经过连续的处理,基本信息处理得更早,而像单词含义一样的更高级特征在后期处理。

麻省理工学院研究生Alexander Kell和斯坦福大学助理教授Daniel Yamins是论文的主要作者。其他作者是麻省理工学院前访问学生Erica Shook和前麻省理工学院博士后Sam Norman Haignere。

大脑建模:模型学会了像人类一样准确地执行任务

当神经网络在20世纪80年代首次出现时,神经科学家们希望这种系统可以用来模拟人脑。然而,来自那个时代的计算机不够强大,无法建立足够大的模型来进行一些实际任务,如物体识别或语音识别等。

在过去的五年里,随着计算能力和神经网络技术的进步,使用神经网络来执行这些困难的现实任务已经成为一种可能,而且它们已经成为许多工程应用程序中的标准方法。与此同时,一些神经科学家对这些系统是否能够来模拟人脑进行了重新审视。

Kell说:“这对于神经科学来说是一个激动人心的机会,因为我们可以创造出可以代替人类来执行某些工作的系统,然后我们可以对这些模型进行测试并将它们与大脑进行比较。”

麻省理工学院的研究人员训练他们的神经网络来执行两个听觉任务,一个涉及语音,另一个涉及音乐。在语音任务中,研究人员给模型提供了成千上万的两秒钟长的录音。任务是识别音频中单词。在音乐任务中,该模型被要求识别那些两秒钟音乐片段的类型。每个片段还包括背景噪音,使任务更加现实也更加困难。

在完成了成千上万的数据训练之后,模型学会了像人类一样准确地执行任务。

Kell说:“这个想法是随着时间的推移,模型在任务中变得越来越好。希望它正在学习一些一般的东西,所以如果你给模型输入一种它以前从未听过的新声音,它会做得很好,这已经在实验中得到了证明。”

该模型还倾向于在人类最容易犯错误的片段上犯错误。

组成神经网络的处理单元可以以多种方式组合在一起,形成可以影响模型的性能的不同模型结构。

麻省理工研究团队发现,这两项任务的最佳模型是将处理分为两组阶段。第一阶段是在任务之间共享的,但在此之后,它分成两个分支,用于进一步的分析:一个用于语音处理任务,另一个用于音乐处理任务。

分级的证据:初级听觉皮层和其他有区别

然后,研究人员用他们的模型对一个长期存在的关于听觉皮层结构的问题进行了探索:它是否分级。

在分级系统中,一系列的大脑区域在流经系统的感官信息上执行不同类型的计算。有证据表明,视觉皮层有相同类型的组织结构。前期的区域,被称为初级视觉皮质,对简单的特征如颜色或方向做出反应。后端的区域则执行更复杂的任务,如对象识别。

然而,很难测试这种类型的组织是否也存在于听觉皮层中,部分原因是没有一个好的模型来对人类的听觉行为进行复制。

McDermott说:“我们认为,如果我们可以构建一个和人类执行同样任务的模型,我们就能够比较将模型不同阶段的不同部分与大脑进行比价,这样可以得到一些证据来证明大脑中的一些部分是否是分级的组织。”

研究人员发现,在他们的模型中声音的基本特征,如频率在早期阶段更容易被提取。当信息在神经网上不断向后传输的过程中,一些基本特征越来越难提取,而更高层次的信息,例如词的含义变得更容易提取。

为了验证模型阶段是否可以复制人类听觉皮层处理声音信息的方式,研究人员使用了功能性磁共振成像(fMRI)来测量大脑处理真实声音时听觉皮层的不同区域。然后,他们比较了在处理相同的声音时,大脑和模型的区别。

他们发现,模型的中间阶段与大脑初级听觉皮层的活动相似性最高,随后的网络与初级皮质以外的活动相呼应。研究人员说,这为听觉皮层以一种类似于视觉皮层的分级方式排列提供了证据。

McDermott说:“我们非常清楚地看到,初级听觉皮层和其他所有东西之间的区别。”

作者现在打算开发一种可以执行其他类型的听觉任务的模型,例如特定声音的发声位置定位,来探讨这些任务是否可以通过本文中发现的思路来完成,或者说其他的一些任务通过对人脑进行研究,以获得新的思路。



原文发布时间为:2018-04-24

本文作者:小潘

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:MIT开发听觉神经网络模型,学会从2秒片段识别音乐类型

相关文章
|
26天前
|
机器学习/深度学习 自然语言处理 数据处理
大模型开发:描述长短期记忆网络(LSTM)和它们在序列数据上的应用。
LSTM,一种RNN变体,设计用于解决RNN处理长期依赖的难题。其核心在于门控机制(输入、遗忘、输出门)和长期记忆单元(细胞状态),能有效捕捉序列数据的长期依赖,广泛应用于语言模型、机器翻译等领域。然而,LSTM也存在计算复杂度高、解释性差和数据依赖性强等问题,需要通过优化和增强策略来改进。
|
26天前
|
机器学习/深度学习
大模型开发:解释卷积神经网络(CNN)是如何在图像识别任务中工作的。
**CNN图像识别摘要:** CNN通过卷积层提取图像局部特征,池化层减小尺寸并保持关键信息,全连接层整合特征,最后用Softmax等分类器进行识别。自动学习与空间处理能力使其在图像识别中表现出色。
24 2
|
1月前
|
网络协议 C++
C++ Qt开发:QTcpSocket网络通信组件
`QTcpSocket`和`QTcpServer`是Qt中用于实现基于TCP(Transmission Control Protocol)通信的两个关键类。TCP是一种面向连接的协议,它提供可靠的、双向的、面向字节流的通信。这两个类允许Qt应用程序在网络上建立客户端和服务器之间的连接。Qt 是一个跨平台C++图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍如何运用`QTcpSocket`组件实现基于TCP的网络通信功能。
37 8
C++ Qt开发:QTcpSocket网络通信组件
|
1月前
|
网络协议 Linux Shell
搭建虚拟机的网络布局类型和配置操作
搭建虚拟机的网络布局类型和配置操作
|
2天前
|
机器学习/深度学习 数据采集 数据可视化
R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
91 7
|
2天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
13 0
|
2天前
|
机器学习/深度学习
HAR-RV-J与递归神经网络(RNN)混合模型预测和交易大型股票指数的高频波动率
HAR-RV-J与递归神经网络(RNN)混合模型预测和交易大型股票指数的高频波动率
13 0
|
3天前
|
编解码 网络协议 网络安全
2.H3CNE-网络参考模型
2.H3CNE-网络参考模型
|
10天前
|
安全 网络协议 物联网
计算机网络基础教程:类型
【4月更文挑战第5天】
24 2
 计算机网络基础教程:类型
|
28天前
|
存储 Shell Linux
【Shell 命令集合 网络通讯 】⭐Linux 显示当前系统的主机名和操作系统类型 uuname命令 使用教程
【Shell 命令集合 网络通讯 】⭐Linux 显示当前系统的主机名和操作系统类型 uuname命令 使用教程
28 0