Vide

1900年1月1日机构名称:

Skip-Plan：通过精简动作空间学习在教学视频中进行程序规划

在本文中，我们提出了 Skip-Plan，一种用于教学视频中程序规划的压缩动作空间学习方法。当前的程序规划方法都遵循每个时间步的状态-动作对预测并相邻地生成动作。虽然它符合人类的直觉，但这种方法始终难以应对高维状态监督和动作序列的错误积累。在这项工作中，我们将程序规划问题抽象为数学链模型。通过跳过动作链中不确定的节点和边，我们以两种方式将长而复杂的序列函数转换为短而可靠的序列函数。首先，我们跳过所有中间状态监督，只关注动作预测。其次，我们通过跳过不可靠的中间动作将相对较长的链分解为多个短的子链。通过这种方式，我们的模型在压缩动作空间中探索动作序列内各种可靠的子关系。大量实验表明，Skip-Plan 在程序规划的 CrossTask 和 COIN 基准测试中实现了最先进的性能。

查看详细

File

2025年3月11日机构名称:

视频：辅助喂养机器人在实验室外进行测试

在两项研究中，用户都成功地养活了自己的饭菜。在第一项研究中，机器人获得了约80％精度的主菜，另一项研究中的用户发现这是成功的阈值。在第二次研究中，房屋的各种环境和环境（Ko）可能在低光或在床上工作时在饮食中吃饭 - 使系统的默认功能保持不变。但研究人员将该系统设计为可定制的，因此KO能够控制机器人并仍然为自己喂食所有餐点。

查看详细

File

2025年3月11日机构名称:

与计算机视觉传感的语义通信用于边缘视频传输

摘要 - 尽管在边缘应用中广泛采用了视力传感器，例如监视，视频数据的传输会消耗大量频谱资源。Semantic Communication（SC）通过在语义层面提取和压缩信息，提供传输数据的准确性和相关性，同时大大减少传输信息的量，从而提供了解决方案。但是，由于缺乏感应能力，传统的SC方法由于在边缘视频中反复传输静态帧而面临效率低下，这会导致频谱效率低下。为了应对这一挑战，我们建议使用计算机视觉传感（SCCV）框架进行EDGE视频传输的SC。框架首先引入了压缩比（CR）自适应SC（CRSC）模型，能够根据帧是静态还是动态的，能够调整CR，并有效地保存光谱资源。此外，我们实施了一个对象检测和语义分割模型启用的传感（OSMS）方案，该方案可以智能地感知场景中的变化并通过封闭式分析评估每个帧的重要性。因此，OSMS方案根据实时感应结果为CRSC模型提供CR提示。此外，CRSC和OSM都设计为轻量级型号，可确保与实用边缘应用中常用的资源受限传感器的兼容性。实验模拟验证了所提出的SCCVS框架的有效性，证明了其提高传输效率的能力而无需牺牲关键的语义信息。

查看详细

File

2025年3月5日机构名称:

gen3c：3D了解世界一致的视频生成...

在许多应用程序中，我们需要生成一个序列长度比原始视频模型支持的长度更长的视频。为了实现这一目标，我们首先将长视频分为长度L的重叠块，在连续的块之间具有一个框架重叠，并以自动回归方式顺序生成每个块的框架。具体来说，对于第一个块，我们遵循Sec中描述的推理管道。主纸的4.5预测RGB视频。然后，我们从第一个块预测中使用框架更新3D缓存，该预测捕获了场景的新观点，并提供了原始3D缓存中不存在的其他信息。要更新3D缓存，我们使用DAV2 [10]估算了第一个块中最后一个帧的像素深度，并通过最大程度地减少再投影误差来使该深度估计与3D缓存对齐。具体来说，我们将深度估计表示为d，并优化d的缩放率和翻译T系数。我们将点云从3D缓存渲染到d的摄像机视图处的深度图像。我们将点云从3D缓存从D的摄像机视图中从D的摄像机视图（表示为D TGT）渲染到深度图像，并且类似于主纸，呈现一个掩码m，指示每个像素是否被3D缓存覆盖。然后将优化目标定义为：主纸的4.5预测RGB视频。然后，我们从第一个块预测中使用框架更新3D缓存，该预测捕获了场景的新观点，并提供了原始3D缓存中不存在的其他信息。要更新3D缓存，我们使用DAV2 [10]估算了第一个块中最后一个帧的像素深度，并通过最大程度地减少再投影误差来使该深度估计与3D缓存对齐。具体来说，我们将深度估计表示为d，并优化d的缩放率和翻译T系数。我们将点云从3D缓存渲染到d的摄像机视图处的深度图像。我们将点云从3D缓存从D的摄像机视图中从D的摄像机视图（表示为D TGT）渲染到深度图像，并且类似于主纸，呈现一个掩码m，指示每个像素是否被3D缓存覆盖。然后将优化目标定义为：

查看详细

File

2025年3月6日机构名称:

gen3c：3D了解世界一致的视频生成...

我们提出了G en 3c，这是一种具有精确的C amera c onTrol和暂时3D C的生成视频模型。先前的视频模型已经生成了现实的视频，但是它们倾向于利用少量3D信息，导致不一致的情况，例如弹出和不存在的对象。相机控制（如果完全实现）是不精确的，因为相机参数仅是对神经网络的输入，然后必须推断视频依赖相机。相比之下，G en 3c由3D缓存：通过预测种子图像的像素深度或先前生成的框架获得的点云。生成下一个帧时，G en 3c由用户提供的新摄像头轨迹在3D缓存的2D渲染上进行条件。至关重要的是，这意味着G en 3c都不必须记住它的预期

查看详细

File

2025年2月16日机构名称:

在监视视频中通过未来的外观运动预测

摘要：监视视频中的异常检测是对罕见事件的识别，这些事件产生了正常事件的不同特征。在本文中，我们介绍了一项有关异常检测技术进度的调查，并介绍了我们提出的框架以应对这一非常具有挑战性的目标。我们的方法基于最新的最新技术，并将异常事件施放为未来帧中意外事件。我们的框架非常灵活，您可以通过现有的最新方法替换几乎重要的模块。最受欢迎的解决方案仅将未来预测的信息用作训练卷积编码网络的限制，以重建框架，并在原始信息和重建信息之间取得差异的分数。我们提出了一个完全基于预测的框架，该框架将特征直接定义为未来预测和基础真理信息之间的差异。此功能可以馈入各种类型的学习模型以分配异常标签。我们介绍了我们的实验计划，并认为我们的框架的性能将通过提出功能提取的早期有希望的结果来与最先进的分数竞争。

查看详细

File

2025年2月15日机构名称:

如何提高养鱼产量 - FO 视频库

生长所需的氧气。放养密度。在生物絮凝养鱼中，高放养密度是可能的，因为微生物絮凝物可以提供额外的食物，但保持最佳放养密度很重要，以避免鱼过度拥挤，这可能导致水质下降、压力和疾病。曝气。在生物絮凝养鱼中，充足的曝气很重要，以保持鱼类生长所需的最佳氧气水平，并防止有毒气体的积聚。监测和记录对于水质、鱼类生长和死亡率等关键参数很重要，以识别挑战并进行必要的更改以优化产量。

查看详细

File

2025年2月15日机构名称:

视频游戏如何为AI的医学铺平道路...

ImageNet，并将其分类。它可以拍摄狗的图像并将其识别为狗，还是拍摄猫的形象并将其识别为猫？5这个科学家团队找到了一种非常有效的做法

查看详细

File

2025年2月13日机构名称:

videodiff：与替代方案的人类视频共同创建

由于视频已成为一种主流形式的交流和通知，因此越来越多的最终用户创建和共享视频。YouTube被认为是最受欢迎的视频SO网络，现在拥有大约6400万个创作者世界范围[26]。然而，创建引人注目的视频是一项复杂且耗时的任务。创作者需要找到关键时刻[79]，并将其移动不相关和重复的内容[29，37]。他们还花时间使视频更具视觉效果，B-roll [35]，文本[83]和音乐[61]。视频理解和生成模型的最新进展显示出了协助视频编辑的巨大潜力。先前的研究表明，AI工具可以加快视频创作的多个阶段，包括脚本写作[53]，情节板[78]，将剪辑剪切成粗糙的剪辑[20，69]，识别低质量的镜头[29，37]，并添加B-Roll [35]。最近的AI视频产品，例如OpusClip [22]，Capcut [13]和Vizard [72]，通过自动进行剪切并添加过渡效果和字幕，进一步简化了视频编辑。生成AI模型启用的一种强大的新功能是快速生成多种变体。这使创作者可以同时探索许多替代故事或B卷的位置，从而可能导致更好的最终视频[24，62]。虽然大多数现有的视频编辑工具旨在一次仅处理一个视频版本，但最近的AI工具（例如OpusClip [22]和Capcut [13]）生成了多种编辑视频的变体，以为用户提供不同的选项。尽管在创意任务中探索替代方案的好处，但用户仍有新的负担：1）比较变化[31，36]和2）随着时间的推移将它们管理[58，62]。虽然先前的工作探讨了文本[31、58、63]中多个AI世代的感觉和比较，但图像[3，36]和设计[50，64]，由于视频的时间性质，比较多个视频提出了独特的挑战。在这项工作中，我们介绍了这种新兴的视频编辑方法，该视频编辑以多种变化为中心。要了解用多个替代方案创作视频的机会和挑战，我们进行了一项形成性研究，其中8个专业视频创建者的任务是比较相同源内容的多个编辑视频。我们的研究中的创作者提到，比较是当前视频编辑过程中的一种常见实践，因为他们考虑了替代性叙述，视觉资产或视频长度。他们还强调，拥有替代方案可以帮助他们反思自己的偏好并进一步计划编辑说明，但是手动创建多个版本是耗时的。随着AI加快视频创建过程的加快，我们设想将来的视频编辑工具将更常见地为用户提供多种变化。

查看详细

File

2025年2月13日机构名称:

使用视觉和语言变压器模型的视频摘要

工具。最初，通过使用OpenCV从监视视频中提取帧进行数据预处理。动态调整框架提取的间隔，以平衡细节水平与处理时间。然后使用Davit Vision Transformer处理每个提取的框架，以生成有意义的文本注释，描述素材的关键元素。使用BART模型将注释进一步凝结成简洁而相干的叙述摘要。整个管道都集成到基于交互式的级应用程序中，使用户可以上传视频，查看注释并查看摘要。通过测量注释准确性，摘要连贯性和用户满意度来评估系统的表现。

查看详细

XiaoMi-AI文件搜索系统

Vide

Skip-Plan：通过精简动作空间学习在教学视频中进行程序规划

视频：辅助喂养机器人在实验室外进行测试

与计算机视觉传感的语义通信用于边缘视频传输

gen3c：3D了解世界一致的视频生成...

gen3c：3D了解世界一致的视频生成...

在监视视频中通过未来的外观运动预测

如何提高养鱼产量 - FO 视频库

视频游戏如何为AI的医学铺平道路...

videodiff：与替代方案的人类视频共同创建

使用视觉和语言变压器模型的视频摘要

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI