抽象准确地定位了3D声音源并估算其语义标签(其中可能不可见,但假定源位于场景中物体的物理表面上)具有许多真实的应用,包括检测气体泄漏和机械故障。在这种情况下,视听弱相关性在得出创新方法时提出了新的挑战,以回答是否或如何使用交叉模态信息来解决任务。朝着这一目标,我们建议使用由针孔RGB-D摄像头和共面四通道麦克风阵列(MIC-ARRAY)组成的声学相机钻机(MIC-Array)。通过使用此钻机来记录来自多视图的视听信号,我们可以使用跨模式提示来估计声源3D位置。特别是,我们的框架Soundloc3d将任务视为集合预测问题,集合中的每个元素都对应于潜在的声源。鉴于视听弱相关,首先是从单个视图mi-crophone阵列信号中学到的集合表示,然后通过主动合并从多视rgb-d图像揭示的物理表面提示来确认。我们证明了Soundloc3d在大型模拟数据集上的效率和优势,并进一步显示了其对RGB-D测量不准确性和环境噪声干扰的鲁棒性。