摘要:随着沉浸式计算设备的出现,自我中心感知迅速发展。人类注视预测是分析自我中心视频的一个重要问题,主要通过基于显着性的建模或高度监督的学习来解决。我们定量分析了监督深度学习模型在看不见的域外数据的自我中心注视预测任务中的泛化能力。我们发现它们的性能高度依赖于训练数据,并且仅限于训练注释中指定的域。在这项工作中,我们解决了在不使用任何训练数据的情况下联合预测人类注视点和自我中心视频时间分割的问题。我们引入了一个无监督的计算模型,该模型汲取了事件感知的认知心理学模型的灵感。我们使用 Grenander 的模式理论形式来表示时空特征,并将惊讶建模为预测注视点的机制。对两个公开数据集(GTEA 和 GTEA+ 数据集)的广泛评估表明,所提出的模型可以显著超越所有无监督基线和一些监督凝视预测基线。最后,我们表明该模型还可以对以自我为中心的视频进行时间分割,其性能可与更复杂、完全监督的深度学习基线相媲美。
主要关键词