详细内容或原文请订阅后点击阅览
Ambisonics使用波形域神经网络
Ambisonics是描述声场的空间音频格式。一阶Ambisonics(FOA)是一种流行的格式,仅包括四个通道。这种有限的频道计数是以空间精度为代价的。理想情况下,人们将能够在没有限制的情况下采用FOA格式的效率。我们设计了一个由数据驱动的空间音频解决方案,该解决方案保留了FOA格式的效率,但可实现超过常规渲染器的质量。利用完全卷积的时间域音频神经网络(Conv-Tasnet),我们创建了一个解决方案,该解决方案采用FOA输入并提供…
来源:Apple机器学习研究Ambisonics是描述声场的空间音频格式。一阶Ambisonics(FOA)是一种流行的格式,仅包括四个通道。这种有限的频道计数是以空间精度为代价的。理想情况下,人们将能够在没有限制的情况下采用FOA格式的效率。我们设计了一个由数据驱动的空间音频解决方案,该解决方案保留了FOA格式的效率,但可实现超过常规渲染器的质量。利用完全卷积的时间域音频神经网络(Conv-TASNET),我们创建了一个解决方案,该解决方案采用FOA输入并提供更高阶段的Ambisonics(HOA)输出。与典型的物理学和基于心理声音的渲染器相比,这种数据驱动的方法是新颖的。定量评估显示,预测和实际3阶HOA之间的平均位置平均平方差异差异为0.6dB。中位定性评级表明,与传统渲染方法相比,感知质量的提高了80%。