人们对出于各种目的的人们的综合视频图像产生了浓厚的兴趣,包括娱乐,交流,培训和广告。随着深层假期模型的开发,合成视频图像很快将在视觉上与自然捕获视频的肉眼无法区分。此外,许多方法正在继续改进,以避免更仔细的法医视觉分析。通过使用面部木偶来制作一些深层的虚假视频,该视频通过演员的动作直接控制合成图像的头部和面部,使演员可以“木偶”的图像“木偶”。在本文中,我们解决了一个问题,即是否可以通过控制扬声器的视觉外观,但要从另一个来源传输行为信号来区分原始说话者的动作。我们通过比较合成图像来进行研究:1)源自另一个人讲不同话语的人,2)起源于同一人说的话不同,而3)源自另一个人说相同话语的人。我们的研究表明,在所有三种情况下,合成视频都比原始源视频不那么真实和吸引力。我们的结果表明,可以从一个人的动作中检测到与视觉外观分开的行为签名,并且可以使用这种行为签名来区分深处的伪造和正确捕获的视频。
我们提出了一种解决视频中2D人姿势估计的方法。视频中人类姿势估计的问题与估计静态图像中的人类姿势不同,因为视频包含大量相关信息。因此,我们投资了如何通过一系列视频框架来利用人体运动的信息来估算视频中的人类姿势。为此,我们引入了一种新型的热图回归方法,我们称之为运动吸引的热图恢复。我们的方法计算相邻帧的关节关键点中的运动向量。然后,我们签署了一种新的热图样式,我们称之为运动意识到的热图,以反映每个关节点的运动不确定性。与传统的热图不同,我们的运动吸引热图不仅考虑了当前的关节位置,而且还考虑了关节如何随时间移动。此外,我们引入了一个模拟且有效的框架,旨在将运动信息置于热图回归中。我们评估了在Posetrack(2018,21)和Sub-JHMDB数据集上的运动感知热图回归。我们的结果证明,拟议的运动吸引热图可显着提高视频中Human姿势估计的精度,尤其是在Challenging方案中,例如像体育游戏镜头一样具有实质性人类动作的视频。(代码和相关材料可在https://github.com/ songinpyo/mtpose中获得。)
患有幻觉,从而降低了普遍性。直接应用先前的 INR 无法弥补这种信号强度不足,因为它们既适合信号也适合干扰因素。在这项工作中,我们引入了一个 INR 框架来增加这种体积描记器信号强度。具体来说,我们利用架构来实现选择性表示能力。我们能够将面部视频分解为血液体积描记器组件和面部外观组件。通过从该血液成分推断体积描记器信号,我们在分布外样本上展示了最先进的性能,而不会牺牲分布内样本的性能。我们在定制的多分辨率哈希编码主干上实现了我们的框架,通过比传统 INR 快 50 倍的速度实现实用的数据集规模表示。我们还提供了一个光学上具有挑战性的分布外场景的数据集,以测试对真实场景的泛化。代码和数据可以在 https://implicitppg.github.io/ 找到。
我们提供了四个不同的带注释的超声心动图视频,涵盖正常病例、房间隔缺损 (ASD) 病例和肺动脉高压 (PAH) 病例。此数据集已删除有关患者的所有私人信息。医院授权此数据集并获得伦理批准。图 1 显示了四个不同的 ASD 患者示例。已标记异常区域以便于理解。图 2 和图 3 也分别展示了四个不同的 PAH 患者和正常病例示例。对于这三个图,垂直字母表示不同的情况,而横轴是按顺序每 10 帧采样的帧。有关完整的视频可视化,请参阅 supplementary.zip 中的附件以获取更多数据集示例。
这些在人工智力(AI)领域是动荡的时期,每天都有一系列用于生产力,研究和创造的新的AI工具,每天都可以在一定程度上向公众使用,部分原因是自从OpenAI在11月2022年11月2022年开放式聊天机器人聊天以来。在技术的热情中,也有声音警告说,先进的生成AI模型未经检查和部署的潜在危险。在2023年3月,有一封公开的信(背后的动机仍然受到临时),要求暂时停顿比GPT-4更强大的模型(Life Institute的Future of Life Institute,2023年)。超出了生成模型的潜在负面社会政治含义(Bird等,2023; Weidinger等,2022)和法律关注点,例如版权感(Samuelson,2023),这是对
足球视频内容分析是一个快速发展的领域,旨在丰富足球比赛的观看体验。当前的研究通常集中于玩家和/或球形检测,跟踪和本地化的特定任务。我们的研究致力于将这些努力整合到能够处理透视转换的综合多对象跟踪(MOT)模型中。我们的框架(footyvision)使用了在扩展的球员和球数据集中训练的Yolov7骨干。MOT模块建立了一个画廊,并根据特征嵌入式,界限框相交,距离,距离和速度来通过匈牙利算法分配身份。我们模型的一个新组件是透视转换模块,该模块利用Yolov7骨架的激活映射使用线,相互作用点和椭圆形来计算同型。此方法有效地适应动态
世界模型通过在环境中提供代理商的预测性表示,并使代理商能够推理未来并做出更明智的决定,从而在基于模型的增强学习(RL)中起着至关重要的作用。但是,仍然存在两个主要问题,限制了世界模型的应用。首先,当前方法通常仅使用特定于域的数据来训练世界模型,这使得概括地看不见的情况或适应环境中的变化具有挑战性。第二,在使用野生视频中训练世界模型时,很难定义动作。在这项工作中,我们通过从不同规模和大型现实世界的视频数据集中学习通用世界模型来解决这两个问题,并提取了潜在的动作。具体来说,我们的方法利用预先训练的视觉编码器将两个相邻帧的图像投射到状态中;然后,根据向量量化,将潜在作用提取到低维空间中;最后,使用潜在动作学习了动态功能。结果表明,在野外视频数据集中测试时,提出的通用世界模型可以成功提取任意相邻帧的潜在动作。此外,在适应看不见的环境时,仅对少量域内数据进行微调可以显着提高通用世界模型的准确性。
b'功能陶瓷对于电池的可扩展生产固体电解质至关重要。li-garnet li 7 la 3 Zr 2 O 12 D(LLZO),尤其是其立方相(Cllzo),由于其高LI + conductitivity和广泛的电化学稳定性窗口而引起了人们的注意。但是,高烧结温度引起了对阴极界面稳定性,生产成本和可扩展制造能源消耗的担忧。我们显示了一种替代\ Xe2 \ x80 \ x9csinter-free \ xe2 \ x80 \ x9d途径,以稳定Cllzo作为其烧结温度的一半胶片。具体而言,我们建立了一个时间温度的翻译(TTT)图,该图可捕获基于结晶焓分析的非晶态 - 结晶的LLZO转换,并确认在500 \ xc2 \ xc2 \ xb0的低温下进行薄膜薄膜的稳定稳定。可用于针对生产中碳足迹减少的电池电池设计。
抽象对象检测是体育视频分析中最常见的任务。此任务需要准确的对象检测,该对象检测可以处理各种大小的对象,这些物体部分被遮挡,照明较差或在复杂的环境中呈现。现场运动中的对象包括球员的团队和球检测;这是由于玩家的快速移动和关注对象的速度而造成的一项艰巨任务。本文提出了预先训练的Yolov3,基于深度学习的对象检测模型。我们准备了一个由四个主要实体组成的曲棍球数据集:1(AUS),2(BEL),曲棍球舞会和裁判员。我们构建了自己的数据集,因为没有现有的现场曲棍球数据集可用。实验结果表明,预先训练的Yolov3深学习模型通过修改该预训练模型的超参数来在该数据集上产生比较结果。关键字:体育视频分析,深度学习,Yolov1,Yolov2,Yolov3,对象检测
摘要:随着沉浸式计算设备的出现,自我中心感知迅速发展。人类注视预测是分析自我中心视频的一个重要问题,主要通过基于显着性的建模或高度监督的学习来解决。我们定量分析了监督深度学习模型在看不见的域外数据的自我中心注视预测任务中的泛化能力。我们发现它们的性能高度依赖于训练数据,并且仅限于训练注释中指定的域。在这项工作中,我们解决了在不使用任何训练数据的情况下联合预测人类注视点和自我中心视频时间分割的问题。我们引入了一个无监督的计算模型,该模型汲取了事件感知的认知心理学模型的灵感。我们使用 Grenander 的模式理论形式来表示时空特征,并将惊讶建模为预测注视点的机制。对两个公开数据集(GTEA 和 GTEA+ 数据集)的广泛评估表明,所提出的模型可以显著超越所有无监督基线和一些监督凝视预测基线。最后,我们表明该模型还可以对以自我为中心的视频进行时间分割,其性能可与更复杂、完全监督的深度学习基线相媲美。
