摘要。超声视频分类可以实现自动诊断,并成为重要的研究领域。但是,公开可用的超声视频数据集仍然稀缺,阻碍了开发有效的视频分类模型的进展。我们通过从可读取的丰富超声图像中合成合理的超声视频来解决这种短缺。为此,我们引入了一个潜在的动态扩散模型(LDDM),以有效地将静态图像转换为具有现实视频特征的动态序列。我们在BUSV基准上展示了强大的定量结果和视觉吸引力的合成视频。值得注意的是,关于真实和LDDM合成视频的组合的培训视频分类模型大大改善了单独使用真实数据的性能,这表明我们的方法成功地模拟了对歧视至关重要的动态。我们的图像到视频方法提供了有效的数据增强解决方案,以推进超声视频分析。代码可在https://github.com/medaitech/u_i2v上找到。
近年来,由于存储容量的增加、网络架构的改进以及数码相机(尤其是手机)的普及,视频在许多应用中变得越来越流行。如今,人们可以通过电视和互联网观看大量视频。观众可以选择的视频数量如此之多,以至于人类不可能从所有视频中找出感兴趣的视频。观众用来缩小选择范围的一种方法是寻找特定类别或类型的视频。由于需要分类的视频数量巨大,因此人们已经开始研究自动对视频进行分类、视频分类和分析。因此,有必要有一个系统来为某个视频或不同的视频生成相关标签
这项工作旨在在教学计划视频的背景下特别了解VideoQa的快速新兴领域。它还鼓励设计可以引起基于编程的自然语言问题的系统的设计。We introduce two datasets: Code- VidQA, with 2,104 question-answer pair with timestamps and links taken from programming videos extracted using Stack Overflow for Pro- gramming Visual Answer Localization task, and CodeVidCL with 4,291 videos (1751 pro- gramming, 2540 non-programming) for Pro- gramming Video Classification task.在广告中,我们提出了一个框架,该框架适应了Bigbird和SVM进行视频分类技术。所提出的方法实现了视频分类的奇特精度为99.61%。
•使用LLM进行视频分类,操作识别,对象检测和跟踪,细分,字幕和其他视频理解任务的含义。•通过LLM的预训练策略,例如自我监督学习,无监督学习和多任务学习,零/少量视频表示学习。•多模式基础模型的技术进步,包括视觉基础模型,视频语言基础模型和视觉语言动作基础模型。•LLM在各个行业和跨学科领域的视频理解的应用,例如智能制造,机器人技术,智能城市,生物医学和地理。•探索将LLM与扩散模型相结合的能力,以增强视频内容的生成或编辑的可访问性和多样性。•克服与利用LLM有关的视频理解相关的技术障碍,包括对解释性和安全性的担忧。
卷积神经网络 (CNN) 被广泛用于通过脑电图 (EEG) 信号识别用户的状态。在之前的研究中,EEG 信号通常以高维原始数据的形式输入 CNN。然而,这种方法很难利用大脑连接信息,而这些信息可以有效描述大脑功能网络并估计用户的感知状态。我们引入了一种利用 CNN 的大脑连接的新分类系统,并使用三种不同类型的连接测量通过情绪视频分类验证了其有效性。此外,提出了两种数据驱动的方法来构建连接矩阵,以最大限度地提高分类性能。进一步的分析表明,与目标视频的情绪属性相关的大脑连接的集中程度与分类性能相关。© 2020 Elsevier Ltd. 保留所有权利。
摘要。本文提出了一种新颖的视频生成模型,并特别尝试解决从文本描述生成视频的问题,即根据给定的文本合成逼真的视频。现有的视频生成方法由于帧不连续性问题及其无文本生成方案,无法轻易适应处理此任务。为了解决这些问题,我们提出了一种循环反卷积生成对抗网络 (RD-GAN),其中包括一个循环反卷积网络 (RDN) 作为生成器和一个 3D 卷积神经网络 (3D-CNN) 作为鉴别器。RDN 是传统循环神经网络的反卷积版本,可以很好地建模生成的视频帧的长距离时间依赖性并充分利用条件信息。可以通过推动 RDN 生成逼真的视频来联合训练所提出的模型,以便 3D-CNN 无法将它们与真实视频区分开来。我们将提出的 RD-GAN 应用于一系列任务,包括常规视频生成、条件视频生成、视频预测和视频分类,并通过实现良好的性能证明了其有效性。
在 COVID-19 疫情爆发之前,视频已经是互联网上使用的主要媒体之一。在疫情期间,视频会议服务变得更加重要,成为实现大多数社交和专业活动的主要工具之一。鉴于社交距离政策,人们花费更多时间使用这些在线服务进行工作、学习和休闲活动。视频会议软件成为家庭办公和远程学习的标准通信方式。然而,这些平台上仍有许多问题需要解决,许多不同方面需要重新审视或调查,例如道德和用户体验问题,仅举几例。我们认为,当前许多最先进的人工智能 (AI) 技术可能有助于增强视频协作服务,特别是基于深度学习的方法,例如面部和情绪分析以及视频分类。在本文中,我们提出了关于人工智能技术如何为即将到来的视频会议时代做出贡献的未来愿景。