人类情感识别一直是心理物理学和计算机视觉的重要主题。但是,经常发布的数据集有许多局限性。进行检查,大多数数据集都包含仅包含有关面部表情的信息的框架。由于以前的数据集的局限性,很难理解影响人类识别的机制,或者在这些数据集中训练的计算机视觉模型上对人类的识别良好。在这项工作中,我们介绍了一个全新的大型数据集,基于视频的情感并影响上下文数据集(VEATIC)中的跟踪,可以征服先前数据集的限制。Veatic在好莱坞电影,纪录片和家庭视频中有124个视频片段,并通过实时注释进行了连续的价和唤醒评级。与数据集一起,我们采用了一项新的计算机视觉任务,以通过每个视频框架中的上下文和字符信息来推断所选字符的影响。此外,我们提出了一个简单的模型来基准这项新的计算机视觉任务。我们还使用数据集与其他类似数据集进行了预处理模型的性能。实验显示了通过VEATIC验证的模型的竞争结果,表明VEATIC的普遍性。我们的数据集可从https://veatic.github.io获得。
随着大型语言模型(LLM)的成功,将视觉模型融入了LLM,以建立视觉语言基础模型最近引起了人们的兴趣。但是,现有的基于LLM的大型多模式模型(例如,视频播放,视频聊天)只能摄入有限数量的框架以进行简短的视频理解。在这项研究中,我们主要专注于设计一个有效有效的模型,以进行长期视频理解。我们建议以在线方式处理视频并将过去的视频信息存储在存储库中,而不是像大多数现有作品一样尝试同时进行更多框架。这使我们的模型可以参考历史视频内容以进行长期分析,而不会超过LLM的上下文长度约束或GPU内存限制。我们的内存库可以以现成的方式被缝制到当前的多模式LLMS中。我们在各种视频理解任务上进行了广泛的实验,例如长期介绍,视频问题答案和视频字幕,我们的模型可以在多个数据集中实现最新的性能。
我们提出了intincavatar,这是一种新的方法,是一种从单眼视频中照亮的,包括几何形状,反照率,材料和环境的内在特性。基于人类的神经渲染的最新进展已使来自单眼视频的穿着人类的高质量几何形状和外观重建。然而,这些方法烘烤了内在特性,例如反照率,材料和环境照明成一个单一的纠缠神经表示。另一方面,只有少数作品可以解决估计单眼视频中穿衣人类的几何形状和分离的外观特性的问题。,由于通过学习的MLP对次要阴影效应的近似值,他们通常会获得有限的质量和分离。在这项工作中,我们建议通过蒙特卡罗射线跟踪明确地对次级阴影效应进行建模。我们将衣服的人体的渲染过程建模为体积散射过程,并将射线跟踪与人体的作用相结合。我们的方法可以从单眼视频中恢复服装人类的高质量地理,反照率,材料和照明特性,而无需使用地面真相材料进行监督的预训练。fur-hoverore,因为我们明确地对体积散射过程和射线追踪进行了建模,所以我们的模型自然而然地形成了一般 -
近年来,由于存储容量的增加、网络架构的改进以及数码相机(尤其是手机)的普及,视频在许多应用中变得越来越流行。如今,人们可以通过电视和互联网观看大量视频。观众可以选择的视频数量如此之多,以至于人类不可能从所有视频中找出感兴趣的视频。观众用来缩小选择范围的一种方法是寻找特定类别或类型的视频。由于需要分类的视频数量巨大,因此人们已经开始研究自动对视频进行分类、视频分类和分析。因此,有必要有一个系统来为某个视频或不同的视频生成相关标签
在本文中,我们提出了RSTAB,这是视频稳定框架的新型框架,该框架通过音量渲染整合了3D多帧融合。与传统方法背道而驰,我们引入了一个3D多框架透视图,以进行稳定的图像,从而解决了全框架生成的挑战,同时保存结构。我们的RSTAB框架的核心在于S Tabilized R Endering(SR),该卷渲染模块,在3D空间中融合了多帧信息。具体来说,SR涉及通过投影从多个帧中旋转的特征和颜色,将它们融合到描述符中以呈现稳定的图像。然而,扭曲的信息的精度取决于降低的准确性,这是受染色体区域显着影响的因素。为了响应,我们介绍了a daptive r ay r ange(arr)模块以整合深度先验,并自适应地定义了投影过程的采样范围。在方面上,我们提出了以光流的光流限制的限制,以进行精确的颜色,以实现精确的颜色。多亏了这三个模块,我们的rstab示例表现出了卓越的性能,与以前的视野(FOV),图像质量和视频稳定性相比,各种数据集的稳定器相比。
2021 年 12 月 31 日——全动态视频 (FMV) 中的人工智能用于各种运营环境中的决策支持和业务关键型工作流程的自动化。
时空卷积通常无法学习视频中的运动动态,因此需要一种有效的运动表示来理解自然界中的视频。在本文中,我们提出了一种基于时空自相似性(STSS)的丰富而鲁棒的运动表示。给定一系列帧,STSS 将每个局部区域表示为与空间和时间中邻居的相似性。通过将外观特征转换为关系值,它使学习者能够更好地识别空间和时间中的结构模式。我们利用整个 STSS,让我们的模型学习从中提取有效的运动表示。我们所提出的神经块称为 SELFY,可以轻松插入神经架构中并进行端到端训练,无需额外监督。通过在空间和时间上具有足够的邻域体积,它可以有效捕捉视频中的长期交互和快速运动,从而实现鲁棒的动作识别。我们的实验分析表明,该方法优于以前的运动建模方法,并且与直接卷积的时空特征互补。在标准动作识别基准 Something-Something-V1 & V2、Diving-48 和 FineGym 上,该方法取得了最佳效果。
当前的视频异常检测(VAD)方法本质上仅限于封闭设置的设置,并且可能在开放世界应用程序中遇到困难,在培训期间,测试数据中可能存在异常类别。最近的一些研究试图解决更现实的开放式VAD,该研究旨在解散视为异常和正常视频的看不见异常。但是,尽管这种能力对于构建更明智的视频监视系统至关重要,但这种设置着重于预测框架异常得分,没有识别异常类别的能力。本文进一步迈出了一步,并探讨了开放词汇视频异常检测(OVVAD),我们的目的是利用预训练的大型模型来检测和cate-可见和看不见的异常。为此,我们提出了一个模型,该模型将OVVAD分解为两个相互构成的任务 - 类不足的检测和特定于类的分类 - 并共同优化了这两个任务。特别是,我们设计了一个语义知识注入模块,以从大语言模型中引入语义知识以进行检测任务,并设计一种新型的异常合成模块,以在大型视觉生成模型的帮助下生成伪异常视频,以实现分类任务。这些语义知识和综合异常大大扩展了我们模型在检测和分类各种可见和看不见的异常方面的能力。对三个广泛使用的基准测试的实验实验实现了我们的模型在OVVAD任务上实现了最新的性能。
现有的文本视频检索解决方案本质上是侧重于最大程度地提高条件可能性的模型,即P(候选人|查询)。虽然很简单,但这种事实上的范式却忽略了基本的数据分布p(查询),这使得识别出分布数据的挑战。为了解决这一限制,我们从生成观点创造性地解决了此任务,并将文本和视频之间的相关性建模为其关节概率P(候选人,查询)。这是通过基于扩散的文本视频检索框架(扩散-RET)来完成的,该框架将检索任务建模为从噪声中产生关节分布的过程。在训练过程中,从发电和犯罪的角度优化了Diffusionret,其发电机通过生成损失优化,并且具有对比度损失的训练的特征提取器。以这种方式,diffusionret巧妙地杠杆化了生成和歧视方法的优势。在五个常用的文本检索基准测试中进行了广泛的实验,包括MSRVTT,LSMDC,MSVD,ActivityNet字幕和DIDEMO,并具有出色的性能,证明了我们方法的效果。更加谨慎,没有任何修改,diffusionret甚至在外域检索设置中表现良好。我们认为这项工作带来了对相关领域的基本见解。代码可从https://github.com/jpthu17/diffusionret获得。
对机器任务的深视频压缩(DVC)的事先研究通常需要为每个特定任务培训一个独特的编解码器,从而规定每个任务的专用解码器。相比之下,传统视频编解码器采用了flex ible编码器控制器,从而通过模式预测等机制使Single编解码器适应了不同的任务。从中汲取灵感,我们引入了一个创新的编码器控制器,以用于机器的深度视频压缩。此控制器具有模式预测和一组图片(GOP)选择模块。我们的AP-ARACH在编码阶段集中控制控制,从而允许跨不同任务(例如检测和跟踪)进行适应性的编码器调整,同时与标准的预训练的DVC解码器保持合理性。示例证明我们的方法是在具有各种现有预训练的DVC的多个任务中适用的。此外,广泛的实验表明,对于不同的任务,我们的方法比以前的DVC比以前的DVC大约25%,只有一个预先训练的解码器。