最近的研究表明,大语模型(LLM)作为推理模块的有效性,可以将复杂的任务解构为更加可行的子任务,尤其是应用于图像的视觉推理任务时。相比之下,本文根据LLM的推理能力介绍了视频理解和推理框架(Vurf)。我们的一种新颖的方法是在视频任务的背景下扩展LLM的实用性,并利用它们从上下文框架内的最小输入和输出演示中概括的能力。我们通过使用成对的指令及其相应的高级程序来呈现LLM来利用他们的上下文学习能力,以生成可执行的视觉程序以供视频理解。为了提高计划的准确性和鲁棒性,我们实施了两种重要的策略。首先,我们采用由GPT-3.5提供支持的反馈生成方法,以纠正利用不支持功能的程序中的错误。其次,从最新的LLM输出自我进行的著作中汲取动机,我们通过将初始输出与LLM不受含义示例的结构限制的初始输出与本应生成的输出的结构对齐,从而提出了一种迭代程序,以提高内在示例的质量。我们在几个特定于视频的任务上的结果,包括视觉质量质量检查,视频预期,姿势估计和多效QA,说明了这些增强功能在提高视频任务的视觉编程方法方面的功效。
缩放人与机器人数据。为了研究人类和机器人数据源对性能的缩放效果,我们为cont进行了其他数据收集。对象中的孔任务。如图8,对2小时的机器人数据和1小时人类数据进行了训练,对3个小时的机器人数据(128 vs 74分)进行了训练。值得注意的是,一个小时的人类数据可产生1400个演示,而一个小时的机器人数据中只有135个演示。这些结果证明了自我有效利用人类数据收集效率的能力,从而产生了更明显的缩放效应,从而实质上可以提高任务性能,而不是仅靠机器人数据而实现的目标。我们注意到,在2小时的机器人数据下,在2小时的机器人数据中,egomimic优于ACT,因此一些改进归因于体系结构。
弱监督时空的视频接地(STVG)旨在给定文本查询,而无需注释的训练数据,旨在将目标对象定位。现有方法通过从视频框架功能中裁剪对象,丢弃所有上下文信息,例如位置变化和实体关系,从而独立于每个候选管。在本文中,我们提出了视频文本提示(VTP)来构建候选功能。从特征图中裁剪管区域,我们绘制视觉标记(例如红色圆圈)作为视频提示上的对象管;相应的文本提示(例如在红色圆圈中)也被插入询问文本的主题单词后,以突出显示其存在。然而,如果没有作物,每个罐头特征都可能看起来相似。为了解决这个问题,我们通过引入负面的对比样本而不是删除候选对象而不是被强调的对比对比样本,进一步提出了Concon-Con-Concon-Conconvive VTP(CVTP);通过合并VTP候选人与对比样本之间的差异,正确候选者和其余部分之间的匹配分数差距被扩大。在几个STVG数据集上进行了广泛的实验和消融,我们的结果通过很大的边距超过了现有的弱监督方法,这证明了我们提出的方法的有效性。
最近的索拉(Sora)发展导致了文本对视频(T2V)一代的新时代。随之而来的是对其安全风险的关注。生成的视频可能包含非法或不道德的内容,并且缺乏对其安全性的全面定量理解,对其可靠性和实际部署构成了挑战。以前的评估主要关注视频生成的质量。虽然对文本到图像模型的一些评估认为安全性,但它们涵盖了有限的方面,并且无法解决视频生成中固有的独特时间风险。为了弥合这一研究差距,我们介绍了T2VSAFETYBENCH,这是对文本To-Video模型进行安全至关重要评估的首个全面基准。我们通过视频生成安全的14个关键方面定义了4个主要类别,并构建了一个恶意提示数据集,包括现实世界提示,LLM生成的提示和基于越狱攻击的提示。然后,我们对最近发布的9个T2V模型进行了彻底的安全评估。基于我们的评估结果,我们提出了几个重要的发现,包括:1)在各个方面没有任何单个模型,不同的模型显示了各种优势; 2)GPT-4评估与手动审查之间的相关性通常很高; 3)文本到视频生成模型的可用性和安全性之间存在权衡。这表明随着视频生成的领域迅速发展,安全风险将迅速增加,突出了优先考虑视频安全性的紧迫性。我们的代码可在https://github.com/yibo-miao/t2vsafetybench上公开获取。我们希望T2VSafetyBench可以提供见解,以更好地理解生成AIS时代的视频发电的安全性。
sapp描述了如何更好地可视化功能使ROV遥控器能够执行更复杂的任务。“我们现在正在使用的只是物理按钮和单个相机来进行复杂的工作。我们希望机器人像人类一样行事,能够在人类可以或更好的水平上表现,而感知是控制的重要组成部分。”根据SAPP的说法,如果机器人配备了360度的3D摄像头,则在耳机中显示这些传感器馈电,以及在物理空间的3D视图上覆盖增强现实和混合现实标记的能力,而不是2D地图“如果您在车辆上具有正确的相机配置和传感器数组,那么当您在上面放上耳机时,感觉就像您实际上是实时沉浸在该空间中。您感觉更像机器人。该术语将是实施例。通过实施例,我们可以真正改变完成工作的方式。
对物体和场景的三维(3D)理解在人类与世界互动的能力中起着关键作用,并且一直是计算机视觉,图形和机器人技术的积极研究领域。大规模合成和以对象为中心的3D数据集证明对对象有3D了解的训练模型有效。但是,由于缺乏大规模数据,很难将类似的方法应用于现实世界对象和场景。视频是现实世界3D数据的潜在来源,但是找到相同内容的多样化但相应的观点已显示出很难大规模。此外,标准视频带有固定的观点,在捕获时确定。这限制了从各种更多样化和潜在有用的观点访问场景的能力。我们认为,大规模360◦视频可以解决以下限制:可扩展的相应帧从不同的视图中。在本文中,我们介绍了360-1M,一个360◦视频数据集,以及有效地从各种观点中找到相应帧的过程。我们以360-1m的速度训练基于扩散的模型O O DIN 1。由迄今为止最大的真实世界,多视图数据集授权,o din可以自由地生成真实场景的新颖观点。与以前的方法不同,o din可以将相机移动到环境中,从而使模型可以推断场景的几何形状和布局。此外,我们在标准的新型视图合成和3D重建基准上显示出改进的性能。
我们介绍了Exo2EGO-V,这是一种新颖的以外为中心为中心的基于质量扩散的视频生成方法,用于日常生活熟练的人类活动,其中稀疏4-视图中心的观点在现场周围配置了360°。由于外主和以自我为中心的观点和动态运动和现实世界中日常生活环境之间的显着差异,此任务尤其具有挑战性。为了应对这些挑战,我们首先提出了一种新的基于扩散的多视图外科编码器,以从多视图exentric视频中提取密集的多尺度功能,作为以自我为中心视频的外观条件。然后,我们在提供空间对立的自我中心特征之前设计了一个自以为是至中心的视图翻译,作为对以egipentric视频扩散模型的输入的串联指导。最后,我们将时间关注层引入我们的以自我为中心的视频扩散管道中,以改善温度一致性跨eg中心框架。广泛的实验表明,Exo2EGO-V从EGO-EXO4D数据集中显着超过SOTA方法,而LPIP的平均为35%。我们的代码和模型将在https://github.com/showlab/exo2ego-v上提供。
本文提出了一个有效的轻量级深空自动编码器(SRAE)模型,以检测视频监视系统中的异常事件。在时间至关重要的实时情况下,轻量级网络至关重要。此外,它可以部署在嵌入式系统或移动设备等低资源设备上。这使其成为现实情况可能缺乏资源的现实情况的方便选择。所提出的网络包括一个三层残留的编码器架构,该架构采用来获取视频中正常事件的显着空间特征。然后,重建损失被用于发现异常情况,其中正常框架的重建良好而重建损失较低,而异常的帧被发现相反。该模型的效率由两个基准数据集测试,加利福尼亚大学圣地亚哥大学(UCSD)行人2(PED 2)和CUHK Avenue,分别为两个数据集实现了AUC≈95%和81%。因此,其性能被证明与最先进的模型相媲美。
摘要 - 基于VIDEO的人重新识别(视频重新ID)最近由于其在各个领域(例如监视,智能城市和公共安全)的广泛实践应用而引起了人们的关注。尽管如此,视频重新ID非常困难,并且由于许多不确定的挑战,例如观点,遮挡,姿势变化和不确定的视频序列等,这是一个持续的阶段。在过去的几年中,对视频重新ID的深入学习一直在公共数据集上取得了令人惊讶的结果,并开发了各种方法来处理视频重新ID中的各种问题。与基于图像的重新ID相比,视频重新ID更具挑战性和复杂性。为了鼓励未来的研究和挑战,这篇第一个全面的论文介绍了对视频重新ID深度学习方法中最新进步的评论。它广泛涵盖了三个重要的AS,包括简短的视频重新ID方法,其局限性,具有技术挑战的主要里程碑以及建筑设计。它在各种可用数据集上提供了比较性能分析,以有价值的思想改善视频重新ID的指导以及令人兴奋的研究方向。索引条款 - video re-id,人重新识别,人搜索,调查,审查论文。