使用 GNN 实现符号钢琴音乐中的语音和人员分离

这篇文章涵盖了我最近在 ISMIR 2024 上发表的论文 Cluster and Separate: A GNN Approach to Voice and Staff Prediction for Score Engraving 背景图片最初使用 Dall-E 3 创建 简介以 MIDI 等格式编码的音乐,即使包含量化音符、拍号或小节信息,也经常缺少可视化的重要元素,例如语音和五线谱信息。这种限制也适用于音乐生成、转录或编曲系统的输出。因此,这种音乐无法轻易转换成人类音乐家可以解读和演奏的可读乐谱。值得注意的是,语音和五线谱分离只是乐谱雕刻系统可能解决的众多方面中的两个——其他方面包括音高拼写、节奏分组和连音符创建。在音乐术语中,“语音”通常指一系列不重叠的音符,通常称为单声道语音。然而,这个定义在处理复音乐器时就不够了。例如,声部还可以包括和弦,和弦是同时演奏的一组音符,被视为一个单元。在这种情况下,我们将这种能够包含和弦的声音称为同音声部。问题将量化的符号音乐作品(例如 MIDI 文件)中的音符分离成多个声部和五线谱是一项重要且不简单的任务。它是乐谱雕刻(或乐谱排版)这一更大任务的基本部分,而

来源:走向数据科学

最大的问题是我们如何使自动转录模型更好。

动机

要开发一个更有效的系统,将音符分离为声音和五线体,尤其是对于复杂的钢琴音乐,我们需要从不同的角度重新考虑问题。我们旨在提高从量化的MIDI开始的转录音乐的可读性,这对于创建良好的分数版画和音乐家的表现非常重要。

对于良好的分数可读性,两个元素可能是最重要的:

    五线排的分离,它在顶部和底部工作人员之间组织了音符;以及声音的分离,在这张图片中以不同的颜色的线条突出显示。
  • 五线排的分离,它在顶部和底部工作人员之间组织笔记;
  • 和声音的分离,在这张图片中突出显示了不同颜色的线条。
  • 钢琴得分中的语音流

    在钢琴得分中,如前所述,声音不是严格的单声音,而是同音词,这意味着单个声音可以同时包含一个或多个音符。从现在开始,我们称这些和弦。您可以在上图的底部工作人员的紫色中看到一些和弦的示例。

    从机器学习的角度来看,我们有两个任务要解决:

    机器学习视角
      第一个是工作人员分离,这很简单,我们只需要为每个音符预测一个专门用于钢琴得分的二进制标签。语音分离任务毕竟似乎相似,如果我们可以预测每个语音的语音数字,并且使用多类别的分类器进行预测,并且问题将解决问题!
  • 第一个是工作人员分离,这很简单,我们只需要为专门用于钢琴得分的顶部或底部人员预测一个二进制标签。
  • 员工分离
  • 毕竟,如果我们可以使用多类分类器预测每个语音的语音号码,那么语音分离任务似乎似乎相似了!
  • 语音分离