定义人工智能:能力与局限性 要了解人工智能如何影响人类工作者,首先要了解其(当前)能力与局限性。人工智能是一个涵盖许多不同但相关技术的总称。人工智能技术可以参与解决问题和学习,并执行原本需要人类思维的任务 [5]。此类技术包括机器学习(预测分析的基础)、自然语言处理(涉及解释和响应口头或书面输出)和图像识别 [5]。根据用户的提示,生成式人工智能工具还可以生成文本(例如 ChatGPT;Claude)、视觉(例如 DALL-E、Midjourney)、音频(例如 MusicLM)和视频(例如 Sora)内容 [6]。
该领域的发展速度如此之快,以至于 ChatGPT 背后的模型 GPT-3.5 已经被继任者 GPT-4 取代,现在它只是更广泛的 AI 工具生态系统中的一种工具,其中许多工具借鉴了 OpenAI 的基础模型或 Anthropic 等竞争对手的模型。如今,学生可以使用许多其他 AI 工具,这些工具使他们能够毫不费力地将单个句子转换成照片般逼真的图像(Midjourney)、视频(Synthesia)、软件代码(GitHub CoPilot)或音乐作品(MusicLM),堪比经验丰富的艺术家和从业者的作品。此外,越来越多的 GPT4 和其他工具插件正在涌现,使他们能够在线访问实时信息。其他工具(例如 Code Interpreter)进一步增强了这些工具的功能,使它们能够执行以前版本无法执行的任务,例如分析和可视化数据、从图像中提取文本以及编辑视频。
最近,人们对计算音乐创作的兴趣激增,这在很大程度上受到了 ChatGPT 和 Stable Diffusion 等大型生成模型的影响。这些强大的生成式人工智能模型已经展示了非凡的能力,尤其是在文本和图像生成领域。在这些发展的推动下,音乐行业也开始探索部署大型音乐创作模型,如 MusicLM 和 MusicGen。然而,值得注意的是,这些以音乐为中心的生成模型的性能和能力尚未达到与文本和图像生成模型相同的复杂程度。音乐的生成面临着独特的挑战,例如捕捉复杂的时间结构、编排情感进程、描绘声音景观以及管理各种音乐元素之间复杂的相互作用。当前基于人工智能的音乐生成系统的可控性和交互性并不令人满意。鉴于这些考虑,对基于人工智能的流行音乐创作技术的发展进行批判性审查是及时且必要的,特别是从行业角度来看。本文借鉴作者作为行业和学术界高级研究人员的丰富经验,全面概述了基于人工智能的音乐创作技术及其在现实世界音乐制作中的实际应用。它研究了歌词生成、旋律创作、歌词旋律匹配、编曲和音频合成等多个方面。该评论深入了解了人工智能技术在实际音乐制作中的演变和应用,批判性地评估了它们的优势和局限性。此外,本文还确定了该领域面临的挑战和未来的潜在方向,希望为该领域的发展做出贡献。