随着人工智能生成技术的发展,智能音乐生成产生了大量的工作和应用[1, 2, 3, 4]。具体来说,音乐生成可以进一步分为两种类型:符号域和音频域。符号域中的音乐生成以 MIDI 格式存储,其文本和顺序数据特性有利于其在主要深度学习模型(例如 LSTM [9, 10]、自动编码器 [11]、RBM [12] 和 GAN [13])中的应用(例如 MidiNet [5]、MuseGAN [6]、BandNet [7] 和 TeleMelody [8])。对于音频域,还可以根据音频的特征对不同频段进行分析,以获得用于模型训练的矢量化数据(例如 Jukebox [14]、WaveNet [15])。除了从 MIDI 数据集或音频数据集生成音乐外,
生成人工智能(Genai)是人工智能(AI)最具变革性的分支之一。是指基于从现有数据中学到的模式,可以创建新内容,例如文本,图像,音乐甚至代码。与主要旨在识别模式并做出预测的传统AI系统不同,生成的AI模型可以生成类似于培训的输入数据的新型输出。使用一些更熟悉的生成AI工具用于:生成文本(OpenAi的GPT-4);发声(Openai Jukebox),DeepMind的Wavenet;图像生成(Openai的DALL-E);时间序列生成(Amazon Web服务的TimeGan),视频生成(Sora - OpenAI的文本对视频模型);和代码生成(Openai和Github,OpenAI Codex的GitHub Copilot)。