Syncnet研究论文,清楚地解释了

深入研究“超时:野外自动化的嘴唇同步”。在Syncnet研究论文中,清楚地解释了迈向数据科学。

来源:走向数据科学

简介

曾经看过一部被臭名昭著的电影,嘴唇不匹配单词?还是在视频通话中,有人的声音不同步?这些同步问题不仅令人讨厌,而且是视频制作,广播和实时沟通的真正问题。 Syncnet纸以一种巧妙的自我监督方法来解决此问题,该方法可以自动检测和修复音频视频同步问题,而无需任何手动注释。特别酷的是,解决同步问题的同一模型也可以弄清楚谁在拥挤的房间里说话 - 都是通过学习唇部运动和语音声音之间的自然相关性。

核心应用程序

可以通过训练有素的Convnet输出执行的下游任务具有重要的应用程序,其中包括确定视频中的Lip-sync错误,在带有多个面孔的场景中检测说话者和唇读。开发LIP-Sync错误应用程序,如果同步偏移存在于-1至+1第二范围内(此范围可能会有所不同,但通常足以进行电视广播音频视频) - 也就是说,视频滞后音频或vice-vices-1 in -1至+1秒 - 我们可以确定偏移的数量。例如,假设它是200毫秒音频滞后视频,这意味着视频是在音频前200毫秒的视频,在这种情况下,我们可以将音频200毫秒向前移动,并且可以使偏移同步问题在0附近,因此它也具有使Audio -video在同步中的应用程序(如果偏移范围在此范围内,则在此范围为-1至+1秒)。

自学训练方法

网络体系结构:双流CNN

音频数据预处理

视频数据预处理

联合嵌入太空学习

损失功能和训练改进

推理和应用程序

现在训练了网络,因此让我们谈谈训练有素的模型得出的推理和实验结果。

实例:偏移和置信度得分计算

我们将10 0.2 s视频作为v1,v2,v3…….. v10。