频中

1900年1月1日机构名称:

Skip-Plan：通过精简动作空间学习在教学视频中进行程序规划

在本文中，我们提出了 Skip-Plan，一种用于教学视频中程序规划的压缩动作空间学习方法。当前的程序规划方法都遵循每个时间步的状态-动作对预测并相邻地生成动作。虽然它符合人类的直觉，但这种方法始终难以应对高维状态监督和动作序列的错误积累。在这项工作中，我们将程序规划问题抽象为数学链模型。通过跳过动作链中不确定的节点和边，我们以两种方式将长而复杂的序列函数转换为短而可靠的序列函数。首先，我们跳过所有中间状态监督，只关注动作预测。其次，我们通过跳过不可靠的中间动作将相对较长的链分解为多个短的子链。通过这种方式，我们的模型在压缩动作空间中探索动作序列内各种可靠的子关系。大量实验表明，Skip-Plan 在程序规划的 CrossTask 和 COIN 基准测试中实现了最先进的性能。

查看详细

File

2025年3月3日机构名称:

手术视频中的精细粒度多级多级跟踪

准确的工具跟踪对于计算机辅助干预的成功至关重要。以前的努力通常会严格地对工具轨迹进行建模，从而俯瞰外科手术程序的动态性质，尤其是跟踪诸如身体外和相机外视图之类的场景。在解决此限制时，新的CholectRack20数据集提供了详细的标签，以三个角度说明多个工具轨迹：（1）术中，（2）体内和（3）可见性，代表不同类型的工具轨迹时间。这些细粒标签可增强跟踪灵活性，但也提高了任务复杂性。由于高视觉相似性，尤其是在同一类别的工具中，遮挡或重新插入身体后的工具仍然具有挑战性。这项工作认识到工具操作员在区分工具轨道实例中的关键作用，尤其是属于同一工具类别的工具轨道实例。但是，在手术视频中未明确捕获操作员的信息。因此，我们提出了Surgitrack，这是一种利用Yolov7进行精确工具检测的新型深度学习方法，并采用了注意机制来对工具的起源方向进行建模，作为其操作员的代理，以重新识别工具。为了处理各种工具轨迹的观点，Surgitrack采用了协调的两分匹配图，最大程度地减少冲突并确保准确的工具身份关联。cholectrack20的实验结果证明了外科手术的有效性，优于实时推理能力的最先进方法和最先进的方法。这项工作为手术工具跟踪设定了新的标准，为在微创手术中提供了更适合适应性和精确的帮助。

查看详细

File

2025年2月16日机构名称:

在监视视频中通过未来的外观运动预测

摘要：监视视频中的异常检测是对罕见事件的识别，这些事件产生了正常事件的不同特征。在本文中，我们介绍了一项有关异常检测技术进度的调查，并介绍了我们提出的框架以应对这一非常具有挑战性的目标。我们的方法基于最新的最新技术，并将异常事件施放为未来帧中意外事件。我们的框架非常灵活，您可以通过现有的最新方法替换几乎重要的模块。最受欢迎的解决方案仅将未来预测的信息用作训练卷积编码网络的限制，以重建框架，并在原始信息和重建信息之间取得差异的分数。我们提出了一个完全基于预测的框架，该框架将特征直接定义为未来预测和基础真理信息之间的差异。此功能可以馈入各种类型的学习模型以分配异常标签。我们介绍了我们的实验计划，并认为我们的框架的性能将通过提出功能提取的早期有希望的结果来与最先进的分数竞争。

查看详细

File

2025年1月19日机构名称:

存在于2025年：在推文，模因和Tiktok视频中以性别歧视的识别和表征分歧

摘要。本文描述了存在于2025年的社交网络中性别歧视识别的实验室，该实验室预计将在CLEF 2025会议上举行，代表了现有挑战的第五版。该实验室包括两种语言，英语和西班牙语的九项任务，这些任务与三种不同类型的数据相同的三个任务（性别歧视，来源意图检测和性别歧视分类）。这种多媒体方法将有助于确定跨媒体格式和用户互动的性别歧视的趋势和模式，从而有助于更深入地了解社会动态。与2023年和2024年存在一样，该版本将使用“以分歧”的方式使用“学习”。九个任务的数据集将包括来自多个注释的注释，显示不同甚至相互矛盾的意见。这有助于模型从不同的角度学习，使它们更好地理解一系列人类观点，并为有效的以人为本的解决方案发展。

查看详细

File

2024年12月20日机构名称:

Aqua：带有视觉锚点的软件教程视频中的自动提问

但是，在某些情况下，即使在视频中跳来跳去后，用户仍然很难构成某些部分，尤其是如果视频无法解决其特定查询时。在这种情况下，他们经常在评论部分留下问题，要求对视频的特定部分进行进一步的解释[54]。虽然及时回答问题对于从教程中有效学习至关重要，但是从社区获得答案或教程作者可能需要数小时或几天。在某些情况下，问题甚至可能没有解决。解决问题的延迟会破坏学习过程，并阻止观众完全参与教程内容。为了解决这个问题，我们探索了自动回答有关教程视频问题的过程的方法。我们首先是对用户问答行为的深入分析。为了洞悉这种行为，我们从Autodesk Fusion 360的前20个最受欢迎的视频教程（3D计算机辅助设计（CAD）软件应用程序中，我们收集了所有5,944个共同的数据集。在评论中确定了663个问题后，我们进一步确定了四个主要类别问题：有关教程内容（“内容”）的问题，有关学习者的个人设置的问题或有关教程（“用户”）（“用户”）的挑战，有关视频的元信息（META）的问题，以及与内容不直接相关的问题。

查看详细

File

2024年11月16日机构名称:

一种基于计算机视觉的航空视频中准确提取车辆轨迹的方法

车辆轨迹数据拥有有价值的信息，用于高级驾驶开发和交通分析。虽然无人机（UAV）提供了更广泛的视角，但视频框架中小规模车辆的检测仍然遭受低精度的折磨，甚至错过了。本研究提出了一个全面的技术框架，以进行准确的车辆轨迹提取，包括六个主要组成部分：视频稳定，车辆检测，车辆跟踪，车道标记检测，坐标转换和数据denosing。为了减轻视频抖动，使用了冲浪和绒布稳定算法。仅一旦使用X（Yolox）进行多目标车辆检测，就只能看一下一个增强的检测器，并在检测头中包含一个浅特征提取模块，以提高低级和小规模特征的性能。有效的通道注意力（ECA）模块在颈部之前集成，以进一步提高表现力。此外，在输入阶段还应用了滑动窗口推理方法，以防止压缩高分辨率的视频帧。Savitzky-Golay过滤器用于轨迹降低。验证结果表明，改进的Yolox的平均平均精度（地图）为88.7％，比原模型的增强5.6％。与Advanced Yolov7和Yolov8模型相比，所提出的方法分别将MAP@50增加到7.63％和1.07％。此外，已经开发了车辆轨迹数据集，并且可以在www.cqskyeyex.com上公开访问。大多数跟踪（MT）轨迹度量达到98.9％，单侧定位的根平方误差约为0.05 m。这些结果证实，所提出的框架是交通研究中高准确性车辆轨迹数据收集的有效工具。

查看详细

File

2024年11月13日机构名称:

从互联网视频中学习通才机器人

将深度学习扩展到大量，多样化的互联网数据已经在视觉和自然语言的理解和产生中产生了极大的一般能力。但是，在机器人技术中收集的数据仍然稀缺和挑战，看到机器人学习难以获得类似的一般能力。从视频（LFV）方法中学习的有希望的学习旨在通过使用大型互联网视频数据来增强传统机器人数据来解决机器人数据瓶颈。此视频数据提供了有关身体行为和世界潜在物理学的广泛基础信息，因此对于通才机器人来说可能是非常有用的。在本调查中，我们介绍了LFV新兴领域的详细概述。我们概述了基本概念，包括LFV的好处和挑战。我们提供了当前方法的综合评论，以从大规模的互联网视频中提取知识，解决LFV中的关键挑战，并通过使用视频数据来提高下游机器人和强化学习。该调查以对LFV的挑战和机遇的批判性讨论结束。在这里，我们主张可扩展的基础模型方法，这些方法可以利用可用的互联网视频范围来改善机器人策略和动态模型的学习。我们希望这项调查能够为LFV的进一步研究提供信息，并推动发展通用机器人的进步。

查看详细

File

2024年10月31日机构名称:

学会从一百万的360视频中想象世界

对物体和场景的三维（3D）理解在人类与世界互动的能力中起着关键作用，并且一直是计算机视觉，图形和机器人技术的积极研究领域。大规模合成和以对象为中心的3D数据集证明对对象有3D了解的训练模型有效。但是，由于缺乏大规模数据，很难将类似的方法应用于现实世界对象和场景。视频是现实世界3D数据的潜在来源，但是找到相同内容的多样化但相应的观点已显示出很难大规模。此外，标准视频带有固定的观点，在捕获时确定。这限制了从各种更多样化和潜在有用的观点访问场景的能力。我们认为，大规模360◦视频可以解决以下限制：可扩展的相应帧从不同的视图中。在本文中，我们介绍了360-1M，一个360◦视频数据集，以及有效地从各种观点中找到相应帧的过程。我们以360-1m的速度训练基于扩散的模型O O DIN 1。由迄今为止最大的真实世界，多视图数据集授权，o din可以自由地生成真实场景的新颖观点。与以前的方法不同，o din可以将相机移动到环境中，从而使模型可以推断场景的几何形状和布局。此外，我们在标准的新型视图合成和3D重建基准上显示出改进的性能。

查看详细

File

2024年9月23日机构名称:

从视频中预处理

摘要 - 我们提出了一种从3D手动相互作用trajectories中学习通用机器人操纵先验的方法。我们构建了一个框架，以使用野外视频来生成感觉运动机器人轨迹。我们通过在共享的3D空间中抬起人的手和操纵对象来做到这一点，并将人类动作重新定位到机器人动作。对这些数据的生成建模为我们提供了任务不合时宜的基本策略。此政策捕获了一般但灵活的操作。我们从经验上证明，通过加强学习（RL）和行为克隆（BC），对这一政策进行填充，使样品有效适应下游任务并同时提高了与先前方法相比的鲁棒性和概括性。定性实验可在以下网址提供：https：//hgaurav2k.github.io/hop/。

查看详细

AI 讽刺和数字反乌托邦：Dor 兄弟制作 AI 讽刺和数字反乌托邦：Dor 兄弟制作当代视频中的不完美和政治评论当代视频中的不完美和政治评论

File

2024年9月16日机构名称:

AI 讽刺和数字反乌托邦：Dor 兄弟制作 AI 讽刺和数字反乌托邦：Dor 兄弟制作当代视频中的不完美和政治评论当代视频中的不完美和政治评论

Dor 兄弟的 AI 生成的视频内容体现了数字创意的一个转折点，技术限制被重新用作美学工具。本文借鉴最近对 Yonatan Dor 的采访，探讨了兄弟俩的创新技术，例如使用复古滤镜掩盖视觉缺陷，以及接受 AI 输出的不可预测性。通过生成大量剪辑和精心编辑选择，他们创造了一种独特的美感，将超现实主义与粗犷的现实主义并列，常常让人想起早期的 CCTV 或 VHS 镜头。他们的作品不仅超越了 AI 视频典型的“变形脸”比喻，而且还具有讽刺意味，使用类似深度伪造的视觉效果来反映和批判阴谋论。这项探索反映了一种更广泛的趋势，即人工智能的创作可能性正在扩展到主流媒体，创作者越来越多地使用该技术来突破视觉界限，同时保持艺术完整性。Dor Brothers 的方法强调了创造力与技术的交汇，引发了人们对人工智能在内容创作、版权问题以及用户生成的深度伪造的文化影响方面的未来问题的质疑。

查看详细

XiaoMi-AI文件搜索系统

频中

Skip-Plan：通过精简动作空间学习在教学视频中进行程序规划

手术视频中的精细粒度多级多级跟踪

在监视视频中通过未来的外观运动预测

存在于2025年：在推文，模因和Tiktok视频中以性别歧视的识别和表征分歧

Aqua：带有视觉锚点的软件教程视频中的自动提问

一种基于计算机视觉的航空视频中准确提取车辆轨迹的方法

从互联网视频中学习通才机器人

学会从一百万的360视频中想象世界

从视频中预处理

AI 讽刺和数字反乌托邦：Dor 兄弟制作 AI 讽刺和数字反乌托邦：Dor 兄弟制作当代视频中的不完美和政治评论当代视频中的不完美和政治评论

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI