详细内容或原文请订阅后点击阅览
来自 3D 重建房间的新颖视角声学合成
我们研究了将盲音频记录与 3D 场景信息相结合以实现新视角声学合成的好处。给定来自 2-4 个麦克风的音频记录以及包含多个未知声源的场景的 3D 几何形状和材料,我们估计场景中任何地方的声音。我们认为新视角声学合成的主要挑战是声源定位、分离和去混响。虽然单纯地训练端到端网络无法产生高质量的结果,但我们表明,结合从 3D 重建中得到的房间脉冲响应 (RIR)……
来源:Apple机器学习研究我们研究了将盲目音频记录与3D场景信息相结合的好处。给定来自2-4个麦克风的录音,以及包含多个未知声源的场景的3D几何和材料,我们估计场景中任何地方的声音。我们确定新型观测综合的主要挑战是声源的定位,分离和脊椎。虽然天真训练端到端网络未能产生高质量的结果,但我们表明,将房间冲动响应(RIR)纳入了3D重建的房间,使相同的网络能够共同解决这些任务。我们的方法优于为单个任务设计的现有方法,证明了其在使用3D视觉信息方面的有效性。 In a simulated study on the Matterport3D-NVAS dataset, our model achieves near-perfect accuracy on source localization, a PSNR of 26.44dB and a SDR of 14.23dB for source separation and dereverberation, resulting in a PSNR of 25.55 dB and a SDR of 14.20 dB on novel-view acoustic synthesis.我们在项目网站https://github.com/apple/ml-nvas3d上发布代码和模型。听取结果时,请戴耳机。
https://github.com/apple/ml-nvas3d