实时系统关键词检索结果

有效而流媒体的视觉视觉主动扬声器检测系统

An Efficient and Streaming Audio Visual Active Speaker Detection System

本文深入研究了主动扬声器检测(ASD)的具有挑战性的任务,在该任务中,系统需要实时确定一个人是否在一系列视频框架中说话。尽管以前的作品在改善网络体系结构和学习有效表示ASD方面取得了长足的进步,但在探索实时系统部署方面存在着一个关键的差距。现有的模型通常会遭受高潜伏期和内存使用量的损失,使它们在直接应用中不切实际。为了弥合这一差距,我们提出了两个解决关键挑战的情况……