MIT又出新玩法，利用AI可轻松分离视频中的乐器声音-阿里云开发者社区

MIT又出新玩法，利用AI可轻松分离视频中的乐器声音

2018-07-09 2104

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 均衡器是大概是被用来在音乐中加入低音的一种常用方式，但近日，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员研发了一个更好的解决方案。他们的深度学习系统PixelPlayer，可以通过人工智能来分离乐器演奏视频中的乐器声音，同时还能改变音量，让它们变得更响亮或更柔和。

均衡器是大概是被用来在音乐中加入低音的一种常用方式，但近日，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员研发了一个更好的解决方案。他们的深度学习系统——PixelPlayer——可以通过人工智能来分离乐器演奏视频中的乐器声音，同时还能改变音量，让它们变得更响亮或更柔和。

经过充分训练的PixelPlayer系统，以视频作为输入，可以对相应的音频进行分割，识别声音来源，然后根据每个像素的声音进行“空间定位”，即识别剪辑片段中产生类似声波的区域。详细信息在论文《The Sound of Pixels》中有所解释，这篇论文已被欧洲计算机视觉大会（ECCV）接收，此会议将于今年9月在德国慕尼黑举行。

“我们期望中最好的情况是系统可以识别出哪种乐器会发出哪种声音，”CSAIL的博士生和该论文的共同作者Hang Zhao说道。“结果我们惊讶的发现，真的可以在像素级别上对乐器进行空间定位。这一结果给我们开辟了更多的可能性，比如只需点击一下视频就能编辑各个乐器的音频。“

PixelPlayer的核心是一个在现有音乐视频（一个由YouTube提供的714个未经修改的且未标记的数据视频集）上进行训练的神经网络。据悉，该系统在超过60个小时的视频上进行了训练，它能够观看之前未看过的音乐表演视频，在像素级别上识别特定乐器，并提取出该乐器的声音。

这只是PixelPlayer多管齐下机器学习框架的一部分。经过训练的视频分析算法从剪辑的帧中提取视觉特征之后，第二个神经网络——音频分析网络，将声音分成小片段并从中提取特征。最后，一个音频合成器网络使用来自两个网络的输出来将特定像素与声波进行关联。

PixelPlayer完全是自我监督的，这意味着它不需要人类对乐器或乐器声音进行任何标注。现在这一系统可以识别超过20种乐器的声音。Zhao称，如果具备更多训练数据，该系统还可以识别更多乐器，不过，它在处理乐器子类别之间的细微差异时可能还存在问题，比如中音萨克斯和次中音萨克斯。

研究人员认为PixelPlayer可以帮助进行声音编辑，或者用于帮助机器人更好地理解动物、车辆和其他物体所产生的环境声音。

他们写道：“我们希望我们的工作可以开辟新的研究途径，通过视觉和听觉信号来理解声源分离的问题。”

原文发布时间为：2018-07-06
本文作者：Sandy
本文来自云栖社区合作伙伴“人工智能观察”，了解相关信息可以关注“人工智能观察”。