我们的模型综合了超声心动图研究中的全部信息,包括不同视角的多个视频和长达 512 个标记的临床报告文本。这标志着比以前的医学基础模型(如 BioMedCLIP 和 EchoCLIP)有了显着改进,后者仅处理单个视角、单个图像并处理长达 77 个标记的文本。为了测试此设计的影响,我们执行了视频到文本和文本到视频的零样本跨模态检索(
摘要:必须提早发现火灾,以防止可能造成的危险事故。传统的火灾检测系统使用诸如传感器之类的硬件来检测火的存在。使用深度学习和机器学习提供了一种更自动化的方法。本研究谈论使用大型数据集使用卷积神经网络。此数据集有助于减少误报,假否定性,并提供更准确的分类。雾,天气,气候,日出,日落,野火和非火灾图像被收集和组合。这样做是为了使雾与烟雾混淆,并且所有橘红色的物体都不会被误解为火。图像增强是为了增加数据集的大小并使其更通用。CCTV镜头的视频被分为框架并进行了加工。这些框架被馈入经过训练的CNN模型,该模型的精度为0.94。如果任何框架显示出略有火,则会提高火警。这种实时立即检测火将防止大火的蔓延,并有助于尽快扑灭。开发的用户界面具有处理视频和图像的选项。完成此操作后,使用气流,分贝,频率和距离等声波的属性来预测火是否可以熄灭。使用具有所有这些功能的标签数据集对机器学习模型进行了培训。决策树分类器显示上述0.97的精度最高。通过使用这些技术,火灾检测和灭绝的预测变得更加容易,更有效。
生成高质量的艺术肖像视频是计算机图形和视觉中的重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型,但这些面向图像的方法在应用于视频(例如固定框架尺寸,面部对齐,缺失非种族细节和时间不一致的要求)时具有明显的局限性。在这项工作中,我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言,Vtoonify利用了基于编码器提取的多尺度内容功能的高质量艺术肖像来利用型号的中高分辨率层,以更好地保留框架详细信息。结果完全卷积体系结构接受可变大小的视频中的非对准面孔作为输入,从而有助于完整的面部区域,并在输出中自然动作。我们的框架与现有的基于样式的图像图像模型兼容,以将其扩展到视频化,并继承了这些模型的吸引力,以使其具有柔性风格的颜色和强度控制。这项工作分别为基于收藏和基于典范的肖像视频风格转移而建立在Toonify和Dualstylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有甲基的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。代码和预估计的模型可在我们的项目页面上找到:www.mmlab-ntu.com/project/vtoonify/。
摘要。我们提出了一种新颖的图像到视频生成方法,该方法将转换单个图像和输入条件(例如,将力和扭矩应用于图像中的对象),以产生一种现实,物理上合理的和时间一致的视频。我们的关键见解是将基于模型的物理仿真与数据驱动的视频通用过程集成,从而实现了合理的图像空间动力学。我们系统的核心是三个核心组成部分:(i)有效捕获图像的几何形状,材料和物理参数的图像理解模块; (ii)使用刚体物理和推断参数来模拟实体行为的图像空间动力学模拟模型; (iii)基于图像的渲染和完善模块,利用生成视频扩散来产生具有模拟运动的逼真的视频镜头。由此产生的视频在物理和外观上都是实现的,甚至是可控制的,从而通过定量比较和全面的用户研究来表现出优于现有数据驱动的图像到视频的效果。Physgen的结果视频可用于各种下游
任务:给定视频段s及其以前的视频段历史记录,必须:1)确定先前的键步(在s t之前执行);推断如果S t为2)可选或3)程序错误; 4)预测缺失的密钥步骤(应该在s t之前进行,但不是); 5)下一个关键步骤(满足依赖关系)。
处理VAD的最常见方法是单级学习[1],它仅在训练正常数据上训练异常检测模型,即没有异常,执行不同的辅助任务,例如重建和预测。主要的假设是对正常数据训练,模型无法正确重建或预测包含异常的视频帧。但是,此类方法只有在相当简单的数据集上表现良好,在这些数据集上可以通过视觉外观或运动来定义异常,并且在异常事件中包含高级语义信息(远程轨迹,个体或对象之间的相互作用)的视频上失败。存在其他方法来处理VAD,例如弱监督[2]或少量学习方法[3]。此类方法在培训中使用了一些异常示例,这些示例有助于捕获更复杂的异常,需要了解高级语义信息[4,5]。最近,视觉语言模型[6,7]由于能够处理图像和文本的能力而获得了很多知名度。他们的应用程序包括视觉问答(VQA),图像字幕和文本对图像搜索。在VAD中使用此类模型的优点在于它们不仅检测到视频异常,而且提供了它们的描述,这有助于更好地理解和解释发生异常[8]。在这次实习中,我们将使用VAD方法来处理需要通过在培训中使用一些异常样本来处理需要高级语义信息的异常。除了异常检测任务外,我们还将通过利用VLM模型来解决视频异常理解的问题。
摘要 - 我们提出了一种从3D手动相互作用trajectories中学习通用机器人操纵先验的方法。我们构建了一个框架,以使用野外视频来生成感觉运动机器人轨迹。我们通过在共享的3D空间中抬起人的手和操纵对象来做到这一点,并将人类动作重新定位到机器人动作。对这些数据的生成建模为我们提供了任务不合时宜的基本策略。此政策捕获了一般但灵活的操作。我们从经验上证明,通过加强学习(RL)和行为克隆(BC),对这一政策进行填充,使样品有效适应下游任务并同时提高了与先前方法相比的鲁棒性和概括性。定性实验可在以下网址提供:https://hgaurav2k.github.io/hop/。
Dor 兄弟的 AI 生成的视频内容体现了数字创意的一个转折点,技术限制被重新用作美学工具。本文借鉴最近对 Yonatan Dor 的采访,探讨了兄弟俩的创新技术,例如使用复古滤镜掩盖视觉缺陷,以及接受 AI 输出的不可预测性。通过生成大量剪辑和精心编辑选择,他们创造了一种独特的美感,将超现实主义与粗犷的现实主义并列,常常让人想起早期的 CCTV 或 VHS 镜头。他们的作品不仅超越了 AI 视频典型的“变形脸”比喻,而且还具有讽刺意味,使用类似深度伪造的视觉效果来反映和批判阴谋论。这项探索反映了一种更广泛的趋势,即人工智能的创作可能性正在扩展到主流媒体,创作者越来越多地使用该技术来突破视觉界限,同时保持艺术完整性。Dor Brothers 的方法强调了创造力与技术的交汇,引发了人们对人工智能在内容创作、版权问题以及用户生成的深度伪造的文化影响方面的未来问题的质疑。
摘要在广告行业中的生成人工智能(GAI)的部署在近年来见证了大幅增长。然而,就是否应告知消费者是否应告知消费者对视频广告创建的参与以及如何减轻由于这种披露引起的潜在负面影响,尚未得到充分的研究。利用信号理论,该研究旨在研究视频广告中生成的AI参与披露引起的影响。此外,我们通过检查真实性感知的中介作用来提供可能的解释。此外,我们建议通过调整披露时间来缓解AI参与披露造成的潜在负面影响。在本文中,我们将讨论三项实验研究,目的是测试直接影响,可能的解释和定时策略的影响。这项研究将有助于理论发展和广告领域中AI部署和人类合作的实践。