Loading...
机构名称:
¥ 1.0

视频到音乐的一代需要暂时的本地高质量聆听体验和全球视频声音签名。虽然最近的音乐发电模型通过先进的音频编解码器在前者中脱颖而出,但视频声学签名的探索已被限制在特定的视觉场景中。相反,我们的研究面临着直接从配对的Music和视频中的视频和音乐之间学习的挑战,而没有明确建模域特异性的节奏或语义关系。我们提出了V2meow,这是一种视频到音乐的生成系统,能够使用多阶段自动回归模型为各种视频类型提供高质量的音乐音频。在5k小时的音乐音频剪辑中培训了与野外音乐视频开采的视频框架配对,V2meow以零拍的方式进行评估时,与以前的域特异性型号进行了竞争。它仅通过根据预先训练的通用 - 目的视觉特征进行调节,从视频帧中提取的预先训练的通用视觉特征来综合高保真音乐audio波形,并通过文本提示通过可选的样式控制。通过质量和定量评估,我们证明了我们的模型在视觉声明通信和音频质量方面优于各种现有音乐生成系统。音乐样本可在tinyurl.com/v2meow上找到。

v2meow:通过视频到音乐发电的视觉节拍

v2meow:通过视频到音乐发电的视觉节拍PDF文件第1页

v2meow:通过视频到音乐发电的视觉节拍PDF文件第2页

v2meow:通过视频到音乐发电的视觉节拍PDF文件第3页

v2meow:通过视频到音乐发电的视觉节拍PDF文件第4页

v2meow:通过视频到音乐发电的视觉节拍PDF文件第5页