我们提出了一种解决视频中2D人姿势估计的方法。视频中人类姿势估计的问题与估计静态图像中的人类姿势不同,因为视频包含大量相关信息。因此,我们投资了如何通过一系列视频框架来利用人体运动的信息来估算视频中的人类姿势。为此,我们引入了一种新型的热图回归方法,我们称之为运动吸引的热图恢复。我们的方法计算相邻帧的关节关键点中的运动向量。然后,我们签署了一种新的热图样式,我们称之为运动意识到的热图,以反映每个关节点的运动不确定性。与传统的热图不同,我们的运动吸引热图不仅考虑了当前的关节位置,而且还考虑了关节如何随时间移动。此外,我们引入了一个模拟且有效的框架,旨在将运动信息置于热图回归中。我们评估了在Posetrack(2018,21)和Sub-JHMDB数据集上的运动感知热图回归。我们的结果证明,拟议的运动吸引热图可显着提高视频中Human姿势估计的精度,尤其是在Challenging方案中,例如像体育游戏镜头一样具有实质性人类动作的视频。(代码和相关材料可在https://github.com/ songinpyo/mtpose中获得。)
摘要 - 转机光绘画学(RPPG)提供了一种最先进的非接触式方法,用于通过分析面部视频来估算人类脉搏。尽管具有潜力,但RPPG方法仍可能会受到各种伪影的影响,例如噪声,倾斜度和其他由太阳镜,口罩甚至非自愿面部接触引起的障碍物,例如个人无意间接触脸。在这项研究中,我们将图像处理转换应用于有意降低视频质量,模仿这些具有挑战性的条件,并随后评估非学习和基于学习的RPPG方法在衰落的数据上的表现。我们的结果表明,在存在这些人工制品的情况下,准确性显着降低,促使我们提出了恢复技术的应用,例如denois和inpainting,以改善心率的估计结果。通过解决这些具有挑战性的条件和遮挡伪像,我们的方法旨在使RPPG方法更加健壮,适合现实情况。为了评估我们提出的方法的有效性,我们对三个公开可用的数据集进行了全面的实验,其中包括各种场景和人工制品类型。我们的发现强调了通过采用最佳恢复算法和RPPG技术的最佳组合来构建强大的RPPG系统的潜力。此外,我们的研究为注重隐私意识的RPPG方法的发展做出了贡献,从而在现实和多样化的条件下加强了这项创新技术在远程心率估计领域的总体实用性和影响。索引术语 - 记录光摄影学,图像变速器,插入,远程医疗
摘要:远程光绘画学(RPPG)是一种非接触式方法,可以从面部视频中检测各种生理信号。RPPG利用数码相机来检测肤色的细微变化,以测量与自主神经系统相关的重要生物标志物等生命体征,例如心率变异性(HRV)。本文基于小波散射变换技术,提出了一种新型的非接触式HRV提取算法WaveRV,然后进行自适应带通滤波和伴侣间间隔(IBI)分析。此外,引入了一种新颖的方法,用于基于接触的PPG信号。waveHRV是针对现有算法和公共数据集的。我们的结果表明,WaveHRV是有希望的,并且在UBFCRPPG数据集上,RMSSD和SDNN的最低平均绝对误差(MAE)为10.5 ms和6.15 ms。
但是,在某些情况下,即使在视频中跳来跳去后,用户仍然很难构成某些部分,尤其是如果视频无法解决其特定查询时。在这种情况下,他们经常在评论部分留下问题,要求对视频的特定部分进行进一步的解释[54]。虽然及时回答问题对于从教程中有效学习至关重要,但是从社区获得答案或教程作者可能需要数小时或几天。在某些情况下,问题甚至可能没有解决。解决问题的延迟会破坏学习过程,并阻止观众完全参与教程内容。为了解决这个问题,我们探索了自动回答有关教程视频问题的过程的方法。我们首先是对用户问答行为的深入分析。为了洞悉这种行为,我们从Autodesk Fusion 360的前20个最受欢迎的视频教程(3D计算机辅助设计(CAD)软件应用程序中,我们收集了所有5,944个共同的数据集。在评论中确定了663个问题后,我们进一步确定了四个主要类别问题:有关教程内容(“内容”)的问题,有关学习者的个人设置的问题或有关教程(“用户”)(“用户”)的挑战,有关视频的元信息(META)的问题,以及与内容不直接相关的问题。
摘要。生成人工智能 (AI) 的最新进展引起了全世界的关注。Dalle-2 和 ChatGPT 等工具表明,以前被认为超出 AI 能力范围的任务现在可以通过各种新方式增强创意媒体的生产力,包括通过生成合成视频。本研究论文探讨了使用 AI 生成的合成视频为在线教育环境创建可行教育内容的实用性。迄今为止,研究 AI 生成的合成媒体在现实世界中的教育价值的研究有限。为了解决这一差距,我们研究了在在线学习平台中使用 AI 生成的合成视频对学习者的内容获取和学习体验的影响。我们采用了混合方法,将成人学习者 (n = 83) 随机分配到两个微学习条件之一,收集学习前和学习后的评估,并调查参与者的学习体验。控制条件包括传统制作的讲师视频,而实验条件包括具有逼真的 AI 生成角色的合成视频。结果表明,两种条件下的学习者从学习前到学习后都表现出显着的进步 (p < .001),两种条件之间的收益没有显着差异 (p = .80)。此外,学习者对传统视频和合成视频的看法没有差异。这些研究结果表明,AI 生成的合成学习视频有可能成为在线教育环境中通过传统方法制作的视频的可行替代品,使高质量的教育内容在全球范围内更容易获得。
静态馈送场景的最新进展已显示出高质量的新型视图合成中的显着进步。但是,这些模型通常会在各种环境中的普遍性中挣扎,并且无法有效处理动态内容。我们提出了BTIMER(Bullettimer的缩写),这是实时重建和动态场景的新型视图综合的第一个运动感知馈送模型。我们的方法通过从所有上下文框架中汇总信息,以给定目标(“子弹”时间戳)在给定目标的3D高斯分裂表示中重建整个场景。这样的公式允许BTIMER通过掌握静态和动态场景数据集来获得可扩展性和概括性。给定一个随意的单眼视频,BTimer在150ms内重建了子弹时间1场景,同时在静态和动态场景数据集上达到最先进的性能,
摘要:必须提早发现火灾,以防止可能造成的危险事故。传统的火灾检测系统使用诸如传感器之类的硬件来检测火的存在。使用深度学习和机器学习提供了一种更自动化的方法。本研究谈论使用大型数据集使用卷积神经网络。此数据集有助于减少误报,假否定性,并提供更准确的分类。雾,天气,气候,日出,日落,野火和非火灾图像被收集和组合。这样做是为了使雾与烟雾混淆,并且所有橘红色的物体都不会被误解为火。图像增强是为了增加数据集的大小并使其更通用。CCTV镜头的视频被分为框架并进行了加工。这些框架被馈入经过训练的CNN模型,该模型的精度为0.94。如果任何框架显示出略有火,则会提高火警。这种实时立即检测火将防止大火的蔓延,并有助于尽快扑灭。开发的用户界面具有处理视频和图像的选项。完成此操作后,使用气流,分贝,频率和距离等声波的属性来预测火是否可以熄灭。使用具有所有这些功能的标签数据集对机器学习模型进行了培训。决策树分类器显示上述0.97的精度最高。通过使用这些技术,火灾检测和灭绝的预测变得更加容易,更有效。
利用大型和多样化数据集的无监督预训练方法已在多个领域取得了巨大成功。近期研究已针对基于模型的强化学习 (MBRL) 研究了此类无监督预训练方法,但仅限于特定领域或模拟数据。本文中,我们研究了使用丰富的自然视频预训练世界模型的问题,以便高效学习下游视觉控制任务。然而,自然视频具有各种复杂的情境因素,例如错综复杂的背景和纹理外观,这妨碍了世界模型提取共享的世界知识以更好地概括。为了解决这个问题,我们引入了情境化世界模型 (ContextWM),它明确地分离情境和动态建模,以克服自然视频的复杂性和多样性,并促进不同场景之间的知识转移。具体来说,我们精心实现了潜在动力学模型的上下文化扩展,通过引入上下文编码器来保留上下文信息并赋能图像解码器,从而促使潜在动力学模型专注于关键的时间变化。我们的实验表明,搭载 ContextWM 的野外视频预训练可以显著提升 MBRL 在机器人操控、运动和自动驾驶等多个领域的采样效率。代码可从以下代码库获取:https://github.com/thuml/ContextWM。
观察是临床医学实践的基本组成部分。对神经科医生来说,观察运动尤为重要。帕金森病、多发性硬化症、中风、癫痫等疾病会以独特的方式影响人的运动。在某些情况下,患者声音的变化也包括在内——声音的变化是由言语运动的变化引起的。临床医生对特征性异常的检测及其严重程度的判断在诊断和预后评估或治疗反应中都起着核心作用。然而,这种做法依赖于有限的经验丰富的专家资源。此外,这些专家受到人类视觉判断的限制,无法可靠或准确地检测和测量运动中的细微变化 (Williams 等人,2023 年)。