MIT又出新玩法,利用AI可轻松分离视频中的乐器声音

简介: 均衡器是大概是被用来在音乐中加入低音的一种常用方式,但近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员研发了一个更好的解决方案。他们的深度学习系统PixelPlayer,可以通过人工智能来分离乐器演奏视频中的乐器声音,同时还能改变音量,让它们变得更响亮或更柔和。

均衡器是大概是被用来在音乐中加入低音的一种常用方式,但近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员研发了一个更好的解决方案。他们的深度学习系统——PixelPlayer——可以通过人工智能来分离乐器演奏视频中的乐器声音,同时还能改变音量,让它们变得更响亮或更柔和。

经过充分训练的PixelPlayer系统,以视频作为输入,可以对相应的音频进行分割,识别声音来源,然后根据每个像素的声音进行“空间定位”,即识别剪辑片段中产生类似声波的区域。详细信息在论文《The Sound of Pixels》中有所解释,这篇论文已被欧洲计算机视觉大会(ECCV)接收,此会议将于今年9月在德国慕尼黑举行。

“我们期望中最好的情况是系统可以识别出哪种乐器会发出哪种声音,”CSAIL的博士生和该论文的共同作者Hang Zhao说道。“结果我们惊讶的发现,真的可以在像素级别上对乐器进行空间定位。这一结果给我们开辟了更多的可能性,比如只需点击一下视频就能编辑各个乐器的音频。“

PixelPlayer的核心是一个在现有音乐视频(一个由YouTube提供的714个未经修改的且未标记的数据视频集)上进行训练的神经网络。据悉,该系统在超过60个小时的视频上进行了训练,它能够观看之前未看过的音乐表演视频,在像素级别上识别特定乐器,并提取出该乐器的声音。

这只是PixelPlayer多管齐下机器学习框架的一部分。经过训练的视频分析算法从剪辑的帧中提取视觉特征之后,第二个神经网络——音频分析网络, 将声音分成小片段并从中提取特征。最后,一个音频合成器网络使用来自两个网络的输出来将特定像素与声波进行关联。

PixelPlayer完全是自我监督的,这意味着它不需要人类对乐器或乐器声音进行任何标注。现在这一系统可以识别超过20种乐器的声音。Zhao称,如果具备更多训练数据,该系统还可以识别更多乐器,不过,它在处理乐器子类别之间的细微差异时可能还存在问题,比如中音萨克斯和次中音萨克斯。

研究人员认为PixelPlayer可以帮助进行声音编辑,或者用于帮助机器人更好地理解动物、车辆和其他物体所产生的环境声音。

他们写道:“我们希望我们的工作可以开辟新的研究途径,通过视觉和听觉信号来理解声源分离的问题。”

原文发布时间为:2018-07-06
本文作者:Sandy
本文来自云栖社区合作伙伴“人工智能观察”,了解相关信息可以关注“人工智能观察”。

相关文章
|
11天前
|
人工智能 自然语言处理 开发者
AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用!
本次AI创作活动由 B 站知名 AI Up 主“秋葉aaaki”带您学习在阿里云 模型在线服务(PAI-EAS)中零代码、一键部署基于ComfyUI和Stable Video Diffusion模型的AI视频生成Web应用,快速实现文本生成视频的AI生成解决方案,帮助您完成社交平台短视频内容生成、动画制作等任务。制作上传专属GIF视频,即有机会赢取乐歌M2S台式升降桌、天猫精灵、定制保温杯等好礼!
|
29天前
|
机器学习/深度学习 编解码 人工智能
麻省理工AI新研究可将马赛克变视频
【2月更文挑战第30天】麻省理工学院等机构的研究团队推出AI新技术FeatUp,可将低分辨率图像提升为高清视频,该技术在2024年ICLR会议上引起关注。FeatUp基于深度特征提取,通过多视角一致性损失恢复空间信息,提高视频清晰度。模型通用性强,适用于多种任务和现有应用。实验显示,它在图像超分辨率和端到端学习模型性能提升上超越其他方法。然而,尚存在对某些内容处理不完善和计算资源需求高的局限性。
51 2
麻省理工AI新研究可将马赛克变视频
|
30天前
|
人工智能 vr&ar
AIGC领域又有大动作了!AI视频“黑马”Morph Studio 来袭,1080P高清画质视频免费生成!
AIGC领域又有大动作了!AI视频“黑马”Morph Studio 来袭,1080P高清画质视频免费生成!
|
1月前
|
机器学习/深度学习 人工智能 编解码
哲学家解析Sora本质,AI视频离世界模拟器还有多远?
【2月更文挑战第24天】哲学家解析Sora本质,AI视频离世界模拟器还有多远?
23 2
哲学家解析Sora本质,AI视频离世界模拟器还有多远?
|
25天前
|
人工智能 监控 算法
java智慧城管源码 AI视频智能分析 可直接上项目
Java智慧城管源码实现AI视频智能分析,适用于直接部署项目。系统运用互联网、大数据、云计算和AI提升城市管理水平,采用“一级监督、二级指挥、四级联动”模式。功能涵盖AI智能检测(如占道广告、垃圾处理等)、执法办案、视频分析、统计分析及队伍管理等多个模块,利用深度学习优化城市管理自动化和智能化,提供决策支持。
146 4
java智慧城管源码 AI视频智能分析 可直接上项目
|
9天前
|
人工智能 算法 测试技术
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!
【4月更文挑战第10天】KAUST和哈佛大学联合研发的MiniGPT4-Video模型在视频理解任务中打破多项纪录,成为业界关注点。这款多模态AI系统基于大型语言模型,能同时处理视觉和文本信息,提升了视频内容理解的深度。通过创新的视觉-文本混合处理,模型在MSVD、MSRVTT等基准测试中取得显著性能提升。然而,由于依赖上下文窗口,目前对较长视频处理有限制。该模型的出现推动了视频理解领域的进步,具有广阔的应用前景。
17 1
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!
|
1月前
|
人工智能 异构计算 Python
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1540 0
与世界同行 2017中国人工智能大会有感

热门文章

最新文章