用于编辑视频音乐的人工智能系统 (+video)

业余和专业音乐表演者可以花几个小时制作他们的 YouTube 视频,以了解如何最好地表演他们最喜欢的歌曲。如果视频播放能够突出显示需要听到的单一乐器,这对他们来说将是一个很大的帮助。

来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)

业余和专业音乐表演者可以花几个小时制作他们的 YouTube 视频,以了解如何最好地表演他们最喜欢的歌曲。如果视频播放能够突出显示需要听到的单一乐器,这对他们来说将是一个很大的帮助。

在麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的一个新项目中,具有深度学习功能的人工智能系统可以观看音乐表演视频并隔离单个乐器的声音,使它们变得更大或更安静。

这个系统是“自我监控”的,不需要任何人为干预来理解乐器和声音。通过超过 60 小时的视频训练,PixelPlayer 系统可以观看前所未见的音乐表演,在像素级别识别特定乐器,并提取与这些乐器相关的声音。

改变单个乐器音量的能力意味着在未来,类似的系统可能会帮助工程师提高旧音乐会镜头的音质。您甚至可以想象表演者想要用其他乐器听到特定乐曲的声音(即您可以快速将电吉他更改为原声吉他)。

PixelPlayer 可以识别 20 多种流行乐器的声音。主要作者韩昭表示,该系统在训练后将能够识别许多其他乐器,尽管它可能仍然难以识别乐器的子类(例如中音萨克斯管和次中音)。

系统首先查找与正在播放的声音相关的图像区域,然后将输入声音分类为一组代表来自每个像素的声音的组件。