过去几年,人工神经网络架构的重大发展促进了自动音乐创作模型的广泛应用。然而,大多数现有系统都采用基于硬代码和预定义规则的算法生成结构,通常不包括交互式或即兴行为。我们提出了一种基于运动的音乐系统 MoMusic,作为 AI 实时音乐生成系统。MoMusic 具有部分随机谐波排序模型,该模型基于音调和弦进展的概率分析,通过音乐集合论进行数学抽象。该模型针对二维网格呈现,通过姿势识别机制产生结果声音。摄像头捕捉用户手指的运动和轨迹,创造出连贯的、部分即兴的和声进程。MoMusic 集成了多个音色音域,从钢琴等传统古典乐器到使用语音转换技术创建的新型“人声乐器”。我们的研究证明了 MoMusic 的互动性、激发音乐家灵感的能力以及使用各种音色音域生成连贯音乐材料的能力。MoMusic 的功能可以轻松扩展,以结合不同形式的姿势控制音色变换、节奏变换、动态变换甚至数字声音处理技术。
在学校,比尔擅长吹长号。他喜欢在金乐队和舞台乐队演奏,甚至买了一把低音长号来扩大他的音域。当他在塔霍马高中原礼堂的舞台上即兴演奏爵士独奏时,他看起来非常开心。另一个短暂的课外兴趣是表演艺术。最难忘的是他在 7 年级时在枫谷小学的舞台上扮演的《对不起,打错了》中冲突的丈夫。由于比尔不害羞,喜欢说出自己的想法,他也很自然地加入了辩论队。比尔也擅长运动,但他没有参加传统的团队运动,尽管他喜欢大学网球的挑战,也参加了高尔夫球队。在学校之外,他和他的朋友赞恩一起积极练习空手道,偶尔参加比赛。
摘要 - 神经音频编解码器通过有效将连续音频信号转换为离散令牌,具有显着高级的音频组合。这些编解码器可以通过对这些令牌进行训练的生成模型来保留高质量的声音,并使复杂的声音生成。但是,现有的神经编解码器模型通常在大型,未分化的音频数据集上进行训练,从而忽略了语音,音乐和环境声音效果等声音域之间的基本差异。这种监督使数据建模复杂化,并为声音发电的可控性带来了其他挑战。为了解决这些问题,我们介绍了源 - 触发性神经音频编解码器(SD-CODEC),这是一种结合音频编码和源分离的新型方法。通过共同学习音频重新合成和分离,SD-Codec明确地将来自不同域的音频信号分配给不同的代码书,以及一组离散表示。实验结果表明,SD-Codec不仅保持竞争性的重新合成质量,而且还得到了分离结果的支持,还证明了潜在空间中不同来源的成功分离,从而增强了音频编解码器中的可解释性,并提供了对音频产生过程的潜在控制。索引术语 - 神经音频编解码器,源分离,表示学习,量化。