StereoFoley: Object-Aware Stereo Audio Generation from Video
我们推出了 StereoFoley,这是一种视频到音频生成框架,可在 48 kHz 下产生语义对齐、时间同步和空间精确的立体声。虽然最近的生成视频到音频模型实现了强大的语义和时间保真度,但由于缺乏专业混合、空间精确的视频到音频数据集,它们在很大程度上仍然局限于单声道或无法提供对象感知的立体成像。首先,我们开发和训练一个从视频生成立体声音频的基本模型,在语义准确性和同步方面实现了最先进的水平。下一步...
ZED X Nano 为腕戴式立体视觉树立了新标准,以 40% 的小外形提供 2.3MP RGB、神经深度、零复制捕获管道和坚固耐用的 GMSL2 连接