详细内容或原文请订阅后点击阅览
有效而流媒体的视觉视觉主动扬声器检测系统
本文深入研究了主动扬声器检测(ASD)的具有挑战性的任务,在该任务中,系统需要实时确定一个人是否在一系列视频框架中说话。尽管以前的作品在改善网络体系结构和学习有效表示ASD方面取得了长足的进步,但在探索实时系统部署方面存在着一个关键的差距。现有的模型通常会遭受高潜伏期和内存使用量的损失,使它们在直接应用中不切实际。为了弥合这一差距,我们提出了两个解决关键挑战的情况……
来源:Apple机器学习研究本文深入研究了主动扬声器检测(ASD)的具有挑战性的任务,在该任务中,系统需要实时确定一个人是否在一系列视频框架中说话。尽管以前的作品在改善网络体系结构和学习有效表示ASD方面取得了长足的进步,但在探索实时系统部署方面存在着一个关键的差距。现有的模型通常会遭受高潜伏期和内存使用量的损失,使它们在直接应用中不切实际。为了弥合这一差距,我们提出了两个方案,以解决实时约束所带来的关键挑战。首先,我们介绍了一种限制ASD模型使用的未来上下文帧数的方法。通过这样做,我们可以减轻在做出决定之前处理整个未来框架的必要性,从而大大减少延迟。其次,我们提出了一个更严格的约束,该约束限制了该模型可以在推理过程中访问的过去框架的总数。这解决了与运行流asd系统的持续记忆问题。除了这些理论框架之外,我们还进行了广泛的实验来验证我们的方法。我们的结果表明,受约束的变压器模型可以实现与最新的复发模型相当甚至更好的性能,例如单向GRU,并且上下文框架数量大大减少。此外,我们阐明了ASD系统的时间内存要求,揭示了过去的上下文对准确性比未来的环境更深远。在CPU上进行分析时,我们发现我们的有效体系结构是由它可以使用的过去上下文的数量绑定的,并且与内存成本相比,计算成本可以忽略不计。