微软开源开源软件：DeepMind 推出 V2A XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

微软开源开源软件：DeepMind 推出 V2A

2024年6月18日 18:59 33 Comments

创新系统可将音频与任何视频内容同步。

来源:安全实验室新闻频道

创新系统可将音频与任何视频内容同步。

Google DeepMind 研究人员通过引入 V2A（视频转音频）技术，在视频创作领域取得了重大进展。他们的新开发能够自动为最初创建的无声视频生成音频。

实现

V2A 由机器学习提供支持，并将视频像素分析与文本提示相结合。这使得程序能够创建逼真的音效、音乐，甚至与屏幕上发生的情况相匹配的对话。该技术与 DeepMind 的其他开发兼容，例如 Veo 视频生成模型。 V2A 和 Veo 之间的合作将使您能够创建具有同步音频和视觉效果的成熟视频。

视频

请求：电影、惊悚、恐怖、音乐、紧张、气氛、在混凝土上行走

请求：电影、惊悚、恐怖、音乐、紧张、气氛、在混凝土上行走

除了无声电影配乐之外，V2A还可以应用于各种类型的档案材料，包括老电影和录像，这为档案视频的创意处理和修复开辟了广阔的可能性。

V2A 能够为同一视频创建无限数量的音轨。用户可以使用文本提示影响结果。 “积极线索”指导模型创建某些声音，而“消极”线索则相反，排除不需要的声音元素。这种控制的灵活性允许作者尝试不同的配音选项并选择最合适的一个。

然而，该技术仍在开发中，研究人员还有许多挑战需要克服。例如，生成的音频的质量直接取决于源视频的质量。视频中的伪影或失真可能会导致音频质量明显下降。

音乐音频 V2A Veo 生成创建质量能够文本惊悚例如 DeepMind 研究人员视频请求提示