我们研究了特定于视频的自动编码器,这些自动编码器允许人类用户探索,编辑和有效传输视频。先前的工作已经独立研究了这些问题(和子问题),并提出了不同的表述。在这项工作中,我们在特定视频的多个帧上训练一个简单的自动编码器(从头开始)。我们观察到:(1)通过视频特定的自动编码器捕获该视频的空间和时间属性所学的潜在代码; (2)自动编码器可以将样本外输入投影到特定于视频的歧管上。这两个属性允许我们使用一个学到的表示形式探索,编辑和有效地传输视频。对于例如,在潜在代码上的线性操作允许用户可视化视频的内容。关联视频的潜在代码和流动投影使用户可以进行所需的编辑。插值潜在代码和歧管投影允许在网络上传输稀疏的低分辨率框架。
准确的工具跟踪对于计算机辅助干预的成功至关重要。以前的努力通常会严格地对工具轨迹进行建模,从而俯瞰外科手术程序的动态性质,尤其是跟踪诸如身体外和相机外视图之类的场景。在解决此限制时,新的CholectRack20数据集提供了详细的标签,以三个角度说明多个工具轨迹:(1)术中,(2)体内和(3)可见性,代表不同类型的工具轨迹时间。这些细粒标签可增强跟踪灵活性,但也提高了任务复杂性。由于高视觉相似性,尤其是在同一类别的工具中,遮挡或重新插入身体后的工具仍然具有挑战性。这项工作认识到工具操作员在区分工具轨道实例中的关键作用,尤其是属于同一工具类别的工具轨道实例。但是,在手术视频中未明确捕获操作员的信息。因此,我们提出了Surgitrack,这是一种利用Yolov7进行精确工具检测的新型深度学习方法,并采用了注意机制来对工具的起源方向进行建模,作为其操作员的代理,以重新识别工具。为了处理各种工具轨迹的观点,Surgitrack采用了协调的两分匹配图,最大程度地减少冲突并确保准确的工具身份关联。cholectrack20的实验结果证明了外科手术的有效性,优于实时推理能力的最先进方法和最先进的方法。这项工作为手术工具跟踪设定了新的标准,为在微创手术中提供了更适合适应性和精确的帮助。
计算机视觉和深度学习技术的最新进展为自动标记运动视频开辟了新的可能性。但是,对监督技术的本质要求是准确标记的培训数据集。在本文中,我们介绍了Padelvic,这是一项Ama-Teur Padel匹配的注释数据集,该数据集由多视频视频流组成,估计了法院内所有四个玩家的位置数据(以及其中一位参与者,准确的运动捕获数据的数据捕获数据),以及专门用于训练网络的训练集量的培训量,从培训中估算了培训的培训,该培训量估算了vides的估计。对于记录的数据,通过将最先进的姿势估计技术应用于其中一个视频来估算玩家位置,该视频会产生相对较小的位置误差(M = 16 cm,SD = 13 cm)。对于其中一位玩家,我们使用了一个运动捕获系统,该系统提供了1.5ºRMS的身体部位方向。最高准确性来自我们的合成数据集,该数据集提供了通过运动捕获数据动画的虚拟播放器的基础和姿势数据。作为合成数据集的示例应用程序,我们提出了一个系统,以从比赛的单视频视频中更准确地预测投影到法院平面上的玩家的质量中心。我们还讨论了如何利用玩家的人均位置数据,例如协同分析,集体战术分析和玩家概况生成等任务。
我们提出了来自单眼RGB视频的动态3D头部重建的单眼神经参数头模型(Mono NPHM)。到此为止,我们提出了一个潜在的空间空间,该空间在神经参数模型的顶部参数化纹理场。我们限制了预测的颜色阀与基础几何形状相关,以便RGB的梯度有效地影响反向渲染过程中的潜在几何代码。为了提高表达空间的代表能力,我们使用超二维增强了向后变形场,从而在拓扑具有挑战性的表达式中显示出颜色和几何表示。使用Mono NPHM作为先验,我们使用基于符号距离字段的体积渲染来处理3D头重建的任务。通过nu毫无反转,我们使用面部锚点构成了具有里程碑意义的损失,这些损失与我们的规范几何表示紧密相关。为了评估单眼RGB视频的动态面部重建任务,我们在休闲条件下记录了20个具有挑战性的Kinect序列。单nphm超过 -
3D计算机视觉是ECEO的礁石水下视频,我们正在开发一种新方法来监视水下视频的珊瑚礁[2]。 来自跨国红海中心在以色列,约旦和吉布提的探险队的一部分收集的珊瑚礁地点的视频。 使用框架的语义分段对视频进行分析,并使用同时本地化和映射(SLAM)从访问的礁石站点创建3D点云,每个点都具有其RGB颜色及其语义类别(例如,>3D计算机视觉是ECEO的礁石水下视频,我们正在开发一种新方法来监视水下视频的珊瑚礁[2]。来自跨国红海中心在以色列,约旦和吉布提的探险队的一部分收集的珊瑚礁地点的视频。使用框架的语义分段对视频进行分析,并使用同时本地化和映射(SLAM)从访问的礁石站点创建3D点云,每个点都具有其RGB颜色及其语义类别(例如,岩石,沙子,活珊瑚,死珊瑚等)附件。可以收集此类视频的便利性有望通过数量级提高珊瑚礁监测方法的可伸缩性。
摘要。脑刺激重建领域在过去几年中取得了重大进展,但技术仍然是针对特定主题的,并且通常在单个数据集上进行测试。在这项工作中,我们提出了一种新技术,用于从功能性磁共振成像 (fMRI) 信号重建视频,该技术旨在跨数据集和跨人类参与者进行性能测试。我们的流程利用多数据集和多主题训练,从来自不同参与者和不同数据集的大脑活动中准确地生成 2 秒和 3 秒的视频片段。这有助于我们回归预训练的文本到视频和视频到视频模型的关键潜在和条件向量,以重建与参与者观察到的原始刺激相匹配的精确视频。我们流程的关键是引入一种 3 阶段方法,首先将 fMRI 信号与语义嵌入对齐,然后回归重要向量,最后使用这些估计生成视频。我们的方法展示了最先进的重建能力,并通过定性和定量分析(包括众包人工评估)进行了验证。我们展示了跨两个数据集以及多主题设置的性能改进。我们的消融研究揭示了不同的对齐策略和数据缩放决策如何影响重建性能,并且我们通过分析随着更多主题数据的利用,性能如何演变来暗示零样本重建的未来。
对物体和场景的三维(3D)理解在人类与世界互动的能力中起着关键作用,并且一直是计算机视觉,图形和机器人技术的积极研究领域。大规模合成和以对象为中心的3D数据集证明对对象有3D了解的训练模型有效。但是,由于缺乏大规模数据,很难将类似的方法应用于现实世界对象和场景。视频是现实世界3D数据的潜在来源,但是找到相同内容的多样化但相应的观点已显示出很难大规模。此外,标准视频带有固定的观点,在捕获时确定。这限制了从各种更多样化和潜在有用的观点访问场景的能力。我们认为,大规模360◦视频可以解决以下限制:可扩展的相应帧从不同的视图中。在本文中,我们介绍了360-1M,一个360◦视频数据集,以及有效地从各种观点中找到相应帧的过程。我们以360-1m的速度训练基于扩散的模型O O DIN 1。由迄今为止最大的真实世界,多视图数据集授权,o din可以自由地生成真实场景的新颖观点。与以前的方法不同,o din可以将相机移动到环境中,从而使模型可以推断场景的几何形状和布局。此外,我们在标准的新型视图合成和3D重建基准上显示出改进的性能。
摘要:监视视频中的异常检测是对罕见事件的识别,这些事件产生了正常事件的不同特征。在本文中,我们介绍了一项有关异常检测技术进度的调查,并介绍了我们提出的框架以应对这一非常具有挑战性的目标。我们的方法基于最新的最新技术,并将异常事件施放为未来帧中意外事件。我们的框架非常灵活,您可以通过现有的最新方法替换几乎重要的模块。最受欢迎的解决方案仅将未来预测的信息用作训练卷积编码网络的限制,以重建框架,并在原始信息和重建信息之间取得差异的分数。我们提出了一个完全基于预测的框架,该框架将特征直接定义为未来预测和基础真理信息之间的差异。此功能可以馈入各种类型的学习模型以分配异常标签。我们介绍了我们的实验计划,并认为我们的框架的性能将通过提出功能提取的早期有希望的结果来与最先进的分数竞争。
人们对出于各种目的的人们的综合视频图像产生了浓厚的兴趣,包括娱乐,交流,培训和广告。随着深层假期模型的开发,合成视频图像很快将在视觉上与自然捕获视频的肉眼无法区分。此外,许多方法正在继续改进,以避免更仔细的法医视觉分析。通过使用面部木偶来制作一些深层的虚假视频,该视频通过演员的动作直接控制合成图像的头部和面部,使演员可以“木偶”的图像“木偶”。在本文中,我们解决了一个问题,即是否可以通过控制扬声器的视觉外观,但要从另一个来源传输行为信号来区分原始说话者的动作。我们通过比较合成图像来进行研究:1)源自另一个人讲不同话语的人,2)起源于同一人说的话不同,而3)源自另一个人说相同话语的人。我们的研究表明,在所有三种情况下,合成视频都比原始源视频不那么真实和吸引力。我们的结果表明,可以从一个人的动作中检测到与视觉外观分开的行为签名,并且可以使用这种行为签名来区分深处的伪造和正确捕获的视频。
