谷歌推出了 MusicLM——一种从文本生成音乐的模型

MusicLM 是一种新型音乐生成 AI,它基于文本描述创作高质量的音乐,类似于 DALL-E 从文本生成图像的方式。

来源:Qudata

谷歌推出了 MusicLM——一种从文本生成音乐的模型

谷歌的工程师团队展示了一种名为 MusicLM 的新型音乐生成 AI 系统。该模型根据文本描述(例如“由失真的吉他即兴重复乐段伴奏的舒缓小提琴旋律”)创作高品质音乐。其工作方式与从文本生成图像的 DALL-E 类似。

名为 MusicLM 的音乐生成 AI 系统

MusicLM 使用 AudioLM 的多步自回归建模作为生成组件,并将其扩展到文本处理。为了解决配对数据稀缺的主要挑战,科学家们应用了 MuLan——一种联合音乐文本模型,该模型经过训练可以将音乐和相应的文本描述投射到嵌入空间中彼此接近的表示中。

在大量未标记音乐数据集上训练 MusicLM 时,该模型将创建条件音乐的过程视为分层序列建模任务,并以 24kHz 的频率生成音乐,该音乐会持续几分钟。为了解决评估数据的缺乏,开发人员发布了 MusicCaps——一种新的高质量音乐字幕数据集,其中包含由专业音乐家准备的 5500 个音乐文本对示例。

实验表明,MusicLM 在音质和对文本描述的遵循度方面均优于以前的系统。此外,MusicLM 模型可以同时以文本和旋律为条件。该模型可以根据文本描述中描述的风格生成音乐,即使歌曲是吹口哨或哼唱的,也可以转换旋律。

请参阅网站上的模型演示。

网站

MusicLM 模型的创建是深度学习 AI 应用程序的一部分,旨在重现人类的心理能力,例如说话、写论文、绘画、参加考试或写数学定理的证明。