摘要 — 本文主要研究基于视觉的无人机导航障碍物检测与跟踪问题。通过将物体检测和跟踪有效地集成到动态卡尔曼模型中,开发了一种单目图像序列的实时物体定位和跟踪策略。在检测阶段,通过每帧图像背景连通性提示计算出的显著性图自动检测和定位感兴趣的物体;在跟踪阶段,采用卡尔曼滤波器对物体状态进行粗略预测,然后通过结合显著性图和两个连续帧之间的时间信息的局部检测器进一步细化预测。与现有方法相比,所提出的方法不需要任何手动初始化跟踪,运行速度比同类最先进的跟踪器快得多,并且在大量图像序列上实现了具有竞争力的跟踪性能。大量实验证明了所提出方法的有效性和优越性能。
16:00‒17:30 Masaru Ibuka 礼堂口语 5 视觉编码 III 23 Altuğ Şimşek(博阿齐奇大学)*; Günhan Dündar(博阿齐奇大学)一种基于纹理的快速 8K 通用视频编码 (VVC) 帧内分区算法
› 用户可定义的文本和图形显示 › VESA 视频模式下的彩色文本和图形 › 使用用户可定义调色板的彩色图像映射 › 冻结帧 › 高达 16 倍的连续数字变焦和平移 › 四个可编程 NUC 表 › 自动校准模式,可实现完全自主的即用型操作
摘要:背景:记录脑机接口的校准数据是一个费力的过程,对受试者来说是一种不愉快的体验。域自适应是一种有效的技术,它利用来自源的丰富标记数据来弥补目标数据短缺的问题。然而,大多数先前的方法都需要首先提取脑电信号的特征,这会引发 BCI 分类的另一个挑战,因为样本集较少或目标标签较少。方法:在本文中,我们提出了一种新颖的域自适应框架,称为基于核的黎曼流形域自适应 (KMDA)。KMDA 通过分析脑电图 (EEG) 信号的协方差矩阵来绕过繁琐的特征提取过程。协方差矩阵定义了一个对称正定空间 (SPD),可以用黎曼度量来描述。在 KMDA 中,协方差矩阵在黎曼流形中对齐,然后通过对数欧几里德度量高斯核映射到高维空间,其中子空间学习通过最小化源和目标之间的条件分布距离同时保留目标判别信息来执行。我们还提出了一种将 EEG 试验转换为 2D 帧(E 帧)的方法,以进一步降低协方差描述符的维数。结果:在三个 EEG 数据集上的实验表明,KMDA 在分类准确度方面优于几种最先进的领域自适应方法,BCI 竞赛 IV 数据集 IIa 的平均 Kappa 为 0.56,BCI 竞赛 IV 数据集 IIIa 的平均准确度为 81.56%。此外,使用 E 帧后整体准确度进一步提高了 5.28%。 KMDA 在解决主体依赖性和缩短基于运动想象的脑机接口校准时间方面显示出潜力。
卫星描述 我们的任务是两颗 3U 立方体卫星,尺寸为 10 x 10 x 37.6 厘米,重约 5.4 公斤,配备超高频收发器、甚高频收发器和 S 波段发射器。卫星使用超高频收发器(Gomspace AX100U)进行遥测、跟踪和指挥 (TTC) 和多普勒跟踪。信标使用超高频链路定期传输,以进行识别、健康状况监测和跟踪。甚高频收发器(Gomspace AX100V)作为 TTC、多普勒跟踪和卫星间链路的备份。此外,还包括一个 S 波段发射器,用于多普勒跟踪和高速数据下载图像,以确保任务和验证近距离操作。出于安全目的,我们将在上行链路信号中使用帧级基于哈希的消息认证 (HMAC)。传输帧格式使用附加同步标记 (ASM) 和 3 字节 GOLAY 字段进行帧同步和长度验证。此外,数据字段包括添加到每个传出帧的循环冗余校验(CRC32C)和 32 字节的 Reed-Solomon 分组码。
最近的 3D 物体检测器利用多帧数据(包括过去和未来的数据)来提高性能。然而,他们采用的时间数据融合方法尚未充分挖掘其提高性能的潜力。现有的工作利用多帧数据,这些数据仅根据自我运动融合特定特征,并且由于巨大的计算和内存成本而无法直接应用于长序列。我们发现目前的方法不能有效地利用历史信息,包括历史预测和物体运动。基于我们的研究,我们提出了一种由历史查询和原始查询组成的新型混合查询公式。历史查询包括从历史预测和特征中获得的推断位置和内容查询,这些查询考虑了当前场景中所有物体的运动。此外,我们的方法可以简单地应用于其他类似 DETR 的模型中,以提高性能,而不会引入巨大的计算和内存成本。结果,我们的 History-DETR 在推理时间增加可忽略不计的情况下实现了显着的改进(+1.1% NDS)。
摘要。本文提出了一种新颖的视频生成模型,并特别尝试解决从文本描述生成视频的问题,即根据给定的文本合成逼真的视频。现有的视频生成方法由于帧不连续性问题及其无文本生成方案,无法轻易适应处理此任务。为了解决这些问题,我们提出了一种循环反卷积生成对抗网络 (RD-GAN),其中包括一个循环反卷积网络 (RDN) 作为生成器和一个 3D 卷积神经网络 (3D-CNN) 作为鉴别器。RDN 是传统循环神经网络的反卷积版本,可以很好地建模生成的视频帧的长距离时间依赖性并充分利用条件信息。可以通过推动 RDN 生成逼真的视频来联合训练所提出的模型,以便 3D-CNN 无法将它们与真实视频区分开来。我们将提出的 RD-GAN 应用于一系列任务,包括常规视频生成、条件视频生成、视频预测和视频分类,并通过实现良好的性能证明了其有效性。
位点特异性 DNA 裂解 (SSDC) 是许多细胞过程中的关键步骤,对基因编辑至关重要。这项工作描述了一种能够同时测量许多单个 DNA 分子中的 SSDC 的动力学分析。在微流体流道中制备珠子束缚的底物 DNA,每个底物 DNA 都包含目标序列的单个副本。外部磁铁对顺磁珠施加弱力。通过使用宽视野、低放大倍数物镜在暗场成像下可视化微珠,可以监测多达 1,000 个单个 DNA 的完整性。注射限制性内切酶 NdeI 会启动裂解反应。视频显微镜用于通过观察相关珠子向上移动并移出物镜焦平面的帧来记录每个 DNA 裂解的确切时刻。逐帧珠子计数量化反应,指数拟合确定反应速率。该方法允许在单个实验中收集单分子 SSDC 反应的定量和具有统计意义的数据。
生成AI的最新进展具有显着的图像和视频编辑,尤其是在文本及时控制的背景下。最新的方法主要依赖于扩散模型来完成这些任务。但是,基于扩散的方法的计算需求是实质的,通常需要大规模配对数据集进行培训,因此挑战了实际应用程序中的部署。为了解决这些问题,本文将基于文本的视频编辑任务分为两个阶段。首先,我们利用预先训练的文本到图像扩散模型以零击的方式同时编辑一些密钥帧。第二,我们引入了一个名为MaskInt的高效模型,该模型是建立在非自动性掩蔽的生成变压器上的,并使用中等框架的结构指导专门研究了编辑的密钥帧之间的框架。实验性恢复表明,我们的面具具有基于扩散的方法的可比性,而显着改善了推理时间。这项研究为基于文本的视频编辑提供了实用的解决方案,并显示了该域中非自动掩盖的生成变压器的潜力。
摘要摘要人类预测在不久的将来将会发生的事情的能力有助于对如何在这种情况下做出反应做出明智的决定。在本文中,我们开发了多个深神经网络模型,打算以先前的帧以序列生成下一帧。近年来,生成的对抗网络(GAN)在图像生成领域显示出令人鼓舞的结果。因此,在本文中,我们旨在创建和比较两个生成的对抗模型,通过将gan与卷积神经网络,长期短期内存网络和卷积LSTM网络相结合,为将来的框架预测创建。基于最先进的方式,我们试图在视觉和数值上改善模型的结果。通过比较我们的两个模型的输出,然后将它们与以前开发的模型进行比较,并为此目的提供了将来的研究范围,从而总结了本文。这项工作中提出的两个模型都基于未来框架预测的某些方面表现良好。本文中介绍的结果在未来预测领域至关重要,在机器人技术,自动驾驶和自主剂开发等领域中。