声音事件的定位和检测(SELD)任务包括对不同类型的声学事件进行分类,同时将它们定位在3D空间中。在以前的《 Challenge》中,本地化等于预测AR-竞争对手的方向(DOA),而今年的挑战还涉及估计相对于麦克风阵列的距离。音频记录可以以两种格式使用:一阶Ambisonics(FOA),它结合了来自32个麦克风的记录,或来自四面体麦克风阵列(MIC)的4通道记录。近年来,大多数提交挑战的系统都使用了以前的格式,而后者的探索较少。在本报告中,我们关注如何更好地利用麦克风记录中的信息。具有相变(GCC-PHAT)[1]与光谱音频特征相结合的广义互相关是麦克风阵列大多数SELD方法的基础。频谱特征包含有关哪种类型的声音事件有效的重要提示,而GCC-PHAT的目的是提取麦克风对之间的到达时间差异(TDOA)。鉴于阵列的几何形状,可以将TDOA测量值映射到DOA。然而,GCC-Phat已知与噪声和混响有关[2]。GCC-PHAT也可能失败
主要关键词