最近,人们对计算音乐创作的兴趣激增,这在很大程度上受到了 ChatGPT 和 Stable Diffusion 等大型生成模型的影响。这些强大的生成式人工智能模型已经展示了非凡的能力,尤其是在文本和图像生成领域。在这些发展的推动下,音乐行业也开始探索部署大型音乐创作模型,如 MusicLM 和 MusicGen。然而,值得注意的是,这些以音乐为中心的生成模型的性能和能力尚未达到与文本和图像生成模型相同的复杂程度。音乐的生成面临着独特的挑战,例如捕捉复杂的时间结构、编排情感进程、描绘声音景观以及管理各种音乐元素之间复杂的相互作用。当前基于人工智能的音乐生成系统的可控性和交互性并不令人满意。鉴于这些考虑,对基于人工智能的流行音乐创作技术的发展进行批判性审查是及时且必要的,特别是从行业角度来看。本文借鉴作者作为行业和学术界高级研究人员的丰富经验,全面概述了基于人工智能的音乐创作技术及其在现实世界音乐制作中的实际应用。它研究了歌词生成、旋律创作、歌词旋律匹配、编曲和音频合成等多个方面。该评论深入了解了人工智能技术在实际音乐制作中的演变和应用,批判性地评估了它们的优势和局限性。此外,本文还确定了该领域面临的挑战和未来的潜在方向,希望为该领域的发展做出贡献。
过去几年,人工神经网络架构的重大发展促进了自动音乐创作模型的广泛应用。然而,大多数现有系统都采用基于硬代码和预定义规则的算法生成结构,通常不包括交互式或即兴行为。我们提出了一种基于运动的音乐系统 MoMusic,作为 AI 实时音乐生成系统。MoMusic 具有部分随机谐波排序模型,该模型基于音调和弦进展的概率分析,通过音乐集合论进行数学抽象。该模型针对二维网格呈现,通过姿势识别机制产生结果声音。摄像头捕捉用户手指的运动和轨迹,创造出连贯的、部分即兴的和声进程。MoMusic 集成了多个音色音域,从钢琴等传统古典乐器到使用语音转换技术创建的新型“人声乐器”。我们的研究证明了 MoMusic 的互动性、激发音乐家灵感的能力以及使用各种音色音域生成连贯音乐材料的能力。MoMusic 的功能可以轻松扩展,以结合不同形式的姿势控制音色变换、节奏变换、动态变换甚至数字声音处理技术。
人工智能音乐创作应用自上个世纪以来就已出现,但直到最近,它们的采用还仅限于一小部分研究人员和工程师,其本体也仅限于计算创造力实验。音乐产业的持续转型、对人工智能音乐公司的资本注入不断增加以及人工智能的技术进步正在扩大这一领域并改变这些应用的本体。这种扩展和本体论转变引发了本文将要探讨的几个伦理和政治问题。我将目前指导商业人工智能生成音乐主流研究的意识形态基础置于背景中,并确定了这项研究引起的两个紧迫问题。首先,艺术过剩人口不可避免地增加,创意劳动力成本下降;其次,基于对现有音乐和听众偏好的开发,对新殖民主义做法的默认接受。我建议这些技术的创造者应该讨论和解决这些问题,并建议 MIR 研究进行伦理和认识论转变。
2. 刑事司法系统是国家责任的关键领域之一,通过侦查、调查、起诉和惩罚犯罪行为,确保公共秩序并防止侵犯各种基本权利。它赋予当局重大的侵入性和强制性权力,包括监视、逮捕、搜查和扣押、拘留以及使用武力甚至致命武力。国际人权法要求对所有这些权力进行司法监督并非偶然:有效、独立、公正地审查当局行使可能严重干涉基本人权的刑事权力。因此,在刑事司法系统的决策中引入非人类因素可能会造成特殊风险。