为视频生成音频

视频转音频研究使用视频像素和文本提示来生成丰富的音轨

来源:DeepMind - 新闻与博客

本作品得益于以下人员的贡献:Ankush Gupta、Nick Pezzotti、Pavel Khrushkov、Tobenna Peter Igwe、Kazuya Kawakami、Mateusz Malinowski、Jacob Kelly、Yan Wu、Xinyu Wang、Abhishek Sharma、Ali Razavi、Eric Lau、Serena Zhang、Brendan Shillingford、Yelin Kim、Eleni Shaw、Signe Nørly、Andeep Toor、Irina Blok、Gregory Shaw、Pen Li、Scott Wisdom、Aren Jansen、Zalán Borsos、Brian McWilliams、Salah Zaiem、Marco Tagliasacchi、R​​on Weiss、Manoj Plakal、Hakan Erdogan、John Hershey、Jeff Donahue、Vivek Kumar 和 Matt Sharifi。

我们向 Benigno Uria、Björn Winckler、Charlie Nash、Conor Durkan、Cătălina Cangea、David Ding、Dawid Górny、Drew Jaegle、Ethan Manilow、Evgeny Gladchenko、Felix Riedel、Florian Stimberg、Henna Nandwani、Jakob Bauer、Junlin Zhang、Luis C. Cobo、Mahyar Bordbar、Miaosen Wang、Mikołaj Bińkowski、Sander Dieleman、Will Grathwohl、Yaroslav Ganin、Yusuf Aytar 和 Yury Sulsky 表示感谢。

特别感谢 Aäron van den Oord、Andrew Zisserman、Tom Hume、RJ Mical、Douglas Eck、Nando de Freitas、Oriol Vinyals、Eli Collins、Koray Kavukcuoglu 和 Demis Hassabis 在整个研究过程中提供的深刻指导和支持。

我们还要感谢 Google DeepMind 和 Google 合作伙伴中做出贡献的许多其他个人。