摘要近年来人们对体育运动的兴趣和热情显着增加。这使人们越来越重视各种运动的高质量视频录制,以捕获最小的细节。录制和分析在诸如五人制的体育运动中变得极为重要,五人五个复杂而快速的事件。球检测和跟踪以及玩家分析,已经成为许多分析师和研究人员感兴趣的领域。教练依靠视频分析来评估团队的表现并做出明智的决定以取得更好的成绩。此外,教练和体育侦察员可以通过审查过去的比赛来使用此工具为才华横溢的玩家侦察。球检测对于帮助裁判在比赛的关键时刻做出正确的决定至关重要。但是,由于球的不断运动,其形状和外观会随着时间的流逝而变化,并且通常会被玩家所阻挡,因此在整个游戏中跟踪其位置的挑战。本文提出了一种基于深度学习的Yolov8模型,用于在广播五人制视频中检测球和玩家。关键字yolov8,roboflow,球检测,球员检测,五人
静态馈送场景的最新进展已显示出高质量的新型视图合成中的显着进步。但是,这些模型通常会在各种环境中的普遍性中挣扎,并且无法有效处理动态内容。我们提出了BTIMER(Bullettimer的缩写),这是实时重建和动态场景的新型视图综合的第一个运动感知馈送模型。我们的方法通过从所有上下文框架中汇总信息,以给定目标(“子弹”时间戳)在给定目标的3D高斯分裂表示中重建整个场景。这样的公式允许BTIMER通过掌握静态和动态场景数据集来获得可扩展性和概括性。给定一个随意的单眼视频,BTimer在150ms内重建了子弹时间1场景,同时在静态和动态场景数据集上达到最先进的性能,
对物体和场景的三维(3D)理解在人类与世界互动的能力中起着关键作用,并且一直是计算机视觉,图形和机器人技术的积极研究领域。大规模合成和以对象为中心的3D数据集证明对对象有3D了解的训练模型有效。但是,由于缺乏大规模数据,很难将类似的方法应用于现实世界对象和场景。视频是现实世界3D数据的潜在来源,但是找到相同内容的多样化但相应的观点已显示出很难大规模。此外,标准视频带有固定的观点,在捕获时确定。这限制了从各种更多样化和潜在有用的观点访问场景的能力。我们认为,大规模360◦视频可以解决以下限制:可扩展的相应帧从不同的视图中。在本文中,我们介绍了360-1M,一个360◦视频数据集,以及有效地从各种观点中找到相应帧的过程。我们以360-1m的速度训练基于扩散的模型O O DIN 1。由迄今为止最大的真实世界,多视图数据集授权,o din可以自由地生成真实场景的新颖观点。与以前的方法不同,o din可以将相机移动到环境中,从而使模型可以推断场景的几何形状和布局。此外,我们在标准的新型视图合成和3D重建基准上显示出改进的性能。
摘要:必须提早发现火灾,以防止可能造成的危险事故。传统的火灾检测系统使用诸如传感器之类的硬件来检测火的存在。使用深度学习和机器学习提供了一种更自动化的方法。本研究谈论使用大型数据集使用卷积神经网络。此数据集有助于减少误报,假否定性,并提供更准确的分类。雾,天气,气候,日出,日落,野火和非火灾图像被收集和组合。这样做是为了使雾与烟雾混淆,并且所有橘红色的物体都不会被误解为火。图像增强是为了增加数据集的大小并使其更通用。CCTV镜头的视频被分为框架并进行了加工。这些框架被馈入经过训练的CNN模型,该模型的精度为0.94。如果任何框架显示出略有火,则会提高火警。这种实时立即检测火将防止大火的蔓延,并有助于尽快扑灭。开发的用户界面具有处理视频和图像的选项。完成此操作后,使用气流,分贝,频率和距离等声波的属性来预测火是否可以熄灭。使用具有所有这些功能的标签数据集对机器学习模型进行了培训。决策树分类器显示上述0.97的精度最高。通过使用这些技术,火灾检测和灭绝的预测变得更加容易,更有效。
任务:给定视频段s及其以前的视频段历史记录,必须:1)确定先前的键步(在s t之前执行);推断如果S t为2)可选或3)程序错误; 4)预测缺失的密钥步骤(应该在s t之前进行,但不是); 5)下一个关键步骤(满足依赖关系)。
摘要 - 我们提出了一种从3D手动相互作用trajectories中学习通用机器人操纵先验的方法。我们构建了一个框架,以使用野外视频来生成感觉运动机器人轨迹。我们通过在共享的3D空间中抬起人的手和操纵对象来做到这一点,并将人类动作重新定位到机器人动作。对这些数据的生成建模为我们提供了任务不合时宜的基本策略。此政策捕获了一般但灵活的操作。我们从经验上证明,通过加强学习(RL)和行为克隆(BC),对这一政策进行填充,使样品有效适应下游任务并同时提高了与先前方法相比的鲁棒性和概括性。定性实验可在以下网址提供:https://hgaurav2k.github.io/hop/。
摘要。近年来,几种流媒体服务的扩散使世界各地的各种受众都可以观看相同的媒体内容,例如电影或电视节目。虽然正在添加翻译和配音服务,以使当地受众访问内容,但支持具有不同能力的人(例如聋哑人和听力难(DHH)通信)可以访问的内容仍在滞后。我们的目标是通过与合成签名者生成手语视频,使DHH社区更容易访问媒体内容。使用相同的签名者对全球视图的给定媒体内容可能有限的吸引力。因此,我们的方法结合了参数建模和生成建模,以生成现实的合成签名者,并根据用户偏好自定义其外观。我们首先通过优化参数模型来重新定位人类手语构成3D手语的头像。然后,使用渲染的化身姿势来调节使用基于扩散的生成模型生成的合成签名者的姿势。合成签名者的外观由通过视觉适配器提供的图像提示控制。我们的结果表明,使用我们的方法生成的手语视频比仅在文本提示下的扩散模型生成的视频具有更好的时间固定性和现实主义。我们还支持多模式的提示,允许用户进一步自定义签名者的外观以备同行多样性(例如肤色,性别)。我们的方法对于签名匿名也很有用。
将自动驾驶汽车和智能基础设施整合到官方系统中是开发未来城市的关键组成部分。因此,有效的公共交流和早期公民参与对于将期望与新技术的能力保持一致至关重要。我们建议在虚拟现实中使用360度视频的观点,以在早期阶段向利益相关者展示潜在的技术,并加速设计过程并衡量生理反应。我们使用V2X通信和手臂手势在未信号交叉点上使用V2X通信和手臂手势来证明我们提出的方法。在OZ环境中使用机器人的机器人的初始视频记录显示,行人对机器人用例表现出好奇心。
我们提出了一种解决视频中2D人姿势估计的方法。视频中人类姿势估计的问题与估计静态图像中的人类姿势不同,因为视频包含大量相关信息。因此,我们投资了如何通过一系列视频框架来利用人体运动的信息来估算视频中的人类姿势。为此,我们引入了一种新型的热图回归方法,我们称之为运动吸引的热图恢复。我们的方法计算相邻帧的关节关键点中的运动向量。然后,我们签署了一种新的热图样式,我们称之为运动意识到的热图,以反映每个关节点的运动不确定性。与传统的热图不同,我们的运动吸引热图不仅考虑了当前的关节位置,而且还考虑了关节如何随时间移动。此外,我们引入了一个模拟且有效的框架,旨在将运动信息置于热图回归中。我们评估了在Posetrack(2018,21)和Sub-JHMDB数据集上的运动感知热图回归。我们的结果证明,拟议的运动吸引热图可显着提高视频中Human姿势估计的精度,尤其是在Challenging方案中,例如像体育游戏镜头一样具有实质性人类动作的视频。(代码和相关材料可在https://github.com/ songinpyo/mtpose中获得。)
摘要。脑刺激重建领域在过去几年中取得了重大进展,但技术仍然是针对特定主题的,并且通常在单个数据集上进行测试。在这项工作中,我们提出了一种新技术,用于从功能性磁共振成像 (fMRI) 信号重建视频,该技术旨在跨数据集和跨人类参与者进行性能测试。我们的流程利用多数据集和多主题训练,从来自不同参与者和不同数据集的大脑活动中准确地生成 2 秒和 3 秒的视频片段。这有助于我们回归预训练的文本到视频和视频到视频模型的关键潜在和条件向量,以重建与参与者观察到的原始刺激相匹配的精确视频。我们流程的关键是引入一种 3 阶段方法,首先将 fMRI 信号与语义嵌入对齐,然后回归重要向量,最后使用这些估计生成视频。我们的方法展示了最先进的重建能力,并通过定性和定量分析(包括众包人工评估)进行了验证。我们展示了跨两个数据集以及多主题设置的性能改进。我们的消融研究揭示了不同的对齐策略和数据缩放决策如何影响重建性能,并且我们通过分析随着更多主题数据的利用,性能如何演变来暗示零样本重建的未来。