动物视觉感知是一种重要的技术,用于监测动物健康,了解动物行为并协助与动物有关的研究。然而,设计一个基于深度学习的感知模型,该模型可以自由地跨各种感知任务自由地适应不同动物,这是由于大量动物的不同姿势,缺乏对稀有物种的数据以及不同任务的半偏见不一致。我们介绍了Uniap,这是一种新型的通用动物感知模型,该模型利用了很少的射击学习来实现各种视觉任务之间的跨物种感知。我们提出的模型将支持图像和标签作为查询图像的及时指导。图像和标签分别通过基于变压器的编码器和轻质标签编码来处理。然后,匹配模块设计用于汇总及时指导和查询图像之间的信息,然后是多头标签解码器,以生成各种任务的输出。通过利用不同动物和任务之间的共同视觉特征,Uniap可以将知识从良好的物种转移到具有有限标记的数据甚至看不见的物种的物种。我们通过对多种动物物种的姿势估计,分割和分类任务进行全面实验,证明了UNIAP的有效实验,展示了其具有最小标记示例的新阶级和适应新类的能力。
弱监督的时间动作本地化旨在通过仅将视频级标签作为监督来定位行动区域并同时确定未修剪视频中的动作类别。伪标签生成是解决具有挑战性的问题的一种承诺策略,但是熟悉的方法忽略了视频的自然时间结构,可以提供丰富的信息来协助这种常规过程。在本文中,我们通过推断出明显的摘要 - 特征提出了一种新型弱监督的时间动作定位方法。首先,我们设计了一个显着推理模块,该模块利用了临时邻居片段之间的变化关系以发现显着的摘要功能,这可以反映视频中的显着动态变化。其次,我们引入了一个边界改进模块,该模块通过信息介绍单元增强了显着的摘要功能。然后,引入了一个歧视增强模块,以增强摘要特征的歧视性质。最后,我们采用精致的摘要功能来制定高保真伪标签,可用于进行动作本地化网络的培训。对两个公开数据集进行的实验实验,即,Thumos14和ActivityNet V1.3,与最先进的方法相比,我们所提出的方法取得了重大改进。我们的源代码可在https://github.com/wuli555555/issf上找到。