通过分析以自我为中心的视频的分析,抽象理解人类行动是智能代理人的理想能力,并且是一个最近越来越受欢迎的研究领域。到目前为止,大多数以自我为中心的(视频)动作识别(EAR)的方法,即,根据预定义的自然语言描述(动作)对给定的视频剪辑进行分类的任务,代表目标动作类(标签)使用一个hot编码,从而忽略了某些动作之间的任何关系或相似性。这项工作的目标是通过利用预先训练的语言模型中编码的先前存在的知识来增强视觉模型的概括能力。具体来说,我们提出了一个语言知识蒸馏框架,以将预训练的语言模型对动作(文本中表达)的知识(在文本中表达)提高到视觉模型。我们不使用标签的单热编码表示,而是将所有动作类别(由语言模型构成)的概率分布作为教学信号。我们的实验表明,我们的框架根据Epic-Kitchens,Something of Something V2等基准获得了EAR的性能和泛化能力。
当前的大多数动作识别算法都是基于堆叠多个卷积,汇总和完全连接层的深网。虽然在文献中广泛研究了卷积和完全连接的操作,但处理动作识别的合并操作的设计,在行动类别中具有不同的时间颗粒状来源,但受到相对较少的关注,并且主要依赖于最大值或平均操作的解决方案。后者显然无能为力,无法完全表现出动作类别的实际时间粒度,从而构成了分类的瓶颈。在本文中,我们引入了一种新型的分层池设计,该设计在动作识别中捕获了不同级别的时间粒度。我们的设计原理是粗到精细的,并使用树结构网络实现;当我们自上而下时,当我们穿越该网络时,汇总操作的不变性越来越少,但及时坚决且本地化。通过解决一个约束的最小化问题来获得该网络中最适合给定的基础真相的操作组合(最适合给定的地面真相),该问题的解决方案对应于捕获全球层次层次合并过程中每个级别(及其时间粒度)贡献的权重分布。除了有原则性和扎根,提出的分层池也是视频长度和分辨率不可知的。对UCF-101,HMDB-51和JHMDB-21数据库进行挑战的广泛实验证实了所有这些陈述。关键字。多重聚合设计2流网络行动cop-nition