摘要 - 条件变化自动编码器(CVAE)是自动驾驶轨迹预测中最广泛使用的模型之一(AD)。它将驾驶环境与其地面真理的未来之间的相互作用捕获到概率潜在空间中,并使用它来产生预测。在本文中,我们挑战了CVAE的关键组成部分。我们利用了变量自动编码器(VAE)的最新进展,即CVAE的基础,这表明采样过程的简单更改可以极大地使性能受益。我们发现,以确定性的方式从任何学习分布中绘制样本的无味抽样自然可以更适合轨迹预测,而不是潜在的随机随机抽样。我们走得更远,并提供了其他改进,包括更结构化的高斯混合物潜在空间,以及一种新颖的,可能更有表现力的方法来推断CVAE。我们通过在相互作用的预测数据集上评估模型的广泛适用性,超过了最新的状态,以及在Celeba数据集上的图像建模任务,优于基线Vanilla cvae。代码可在以下网址获得:https://github.com/boschresearch/cuae-prediction。
摘要 — 蒙蔽图像建模 (MIM) 在各种视觉任务上都取得了令人鼓舞的结果。然而,学习到的表征的有限辨别能力表明,在构建更强大的视觉学习器方面仍有许多工作要做。为了实现这一目标,我们提出了对比蒙蔽自编码器 (CMAE),这是一种新的自监督预训练方法,用于学习更全面、更强大的视觉表征。通过新颖的设计精心统一对比学习 (CL) 和蒙蔽图像模型 (MIM),CMAE 利用它们各自的优势,学习具有强大实例辨别能力和局部可感知能力的表征。具体而言,CMAE 由两个分支组成,其中在线分支是非对称编解码器,动量分支是动量更新编码器。在训练期间,在线编码器从蒙蔽图像的潜在表示重建原始图像以学习整体特征。动量编码器以完整图像为输入,通过与在线编码器进行对比学习来增强特征辨别能力。为了使 CL 与 MIM 兼容,CMAE 引入了两个新组件:用于生成可信正视图的像素移位和用于补充对比对特征的特征解码器。得益于这些新颖的设计,CMAE 相比 MIM 有效地提升了表征质量和迁移性能。CMAE 在图像分类、语义分割和目标检测等竞争激烈的基准测试中取得了最佳性能。值得注意的是,CMAE-Base 在 ImageNet 上实现了 85.3% 的 top-1 准确率,在 ADE20k 上实现了 52.5% 的 mIoU,分别比之前的最好成绩提高了 0.7% 和 1.8%。源代码可在 https://github.com/ZhichengHuang/CMAE 公开访问。
设计只能与其数学表示一样好。在工程设计优化中,所选的参数化方法可以对结果产生重大影响。本文介绍了一种利用变异自动编码器(VAE)的翼型设计参数化的新方法,这是一类以降低维数的熟练程度而闻名的神经网络。但是,VAE的重大挑战是编码潜在空间的解释性。这项工作旨在通过创建具有可解释潜在空间的网络来解决此问题,从而产生人类可以理解的参数。使用综合的UIUC机翼数据库评估了这种方法的有效性,该数据库提供了多种式机翼形状供分析。我们表明,VAE可以成功提取翼型几何形状的关键特征,并使用六个参数对其进行参数化,这些特征以设计器可以理解的方式显示与机翼属性的明显相关性。此外,它可以平滑地插入数据点,从而产生新的机翼,从而提供实用且可解释的机翼参数化。
遗传算法 (GA) 已在工程或医学等不同领域得到研究,以优化网络路由或医学图像分割等各种问题。此外,它们还被用于自动寻找深度神经网络的最佳架构。但是,据我们所知,它们尚未被用作 Transformer 模型的权重优化器。虽然梯度下降一直是这项任务的主要范例,但我们相信 GA 有其优势。在本文中,我们将证明尽管 GA 能够微调 Transformer 编码器,但它们的泛化能力比 Adam 差得多;然而,仔细观察,GA 从两个不同的预训练数据集中利用知识的能力超过了 Adam。
抽象添加剂制造通过增强组件强度并减少材料要求,彻底改变了结构优化。用于实现这些改进的一种方法是应用多晶格结构。这些结构的性能在很大程度上依赖于介质元素的详细设计。许多当前的方法使用数据驱动的设计来生成多晶格过渡区域,利用共同解决介质结构的几何形状和属性的模型。但是,尚不清楚将机械性能整合到生成多晶格插值的数据集中是否仅在几何以外是有益的。为了解决此问题,这项工作实现并评估了用于生成多晶格过渡区域的混合几何/属性机器学习模型。我们将该混合模型的结果与使用仅几何模型获得的结果进行了比较。我们的研究确定,合并物理特性减少了在潜在空间中解决的变量数量,因此提高了生成模型开发多晶格结构过渡区域的能力。
推荐系统已成为将人们与信息联系起来的重要工具。稀疏,复杂且快速增长的数据为传统推荐算法带来了新的挑战。为了克服这些挑战,已经提出了各种基于深度学习的建议算法。其中,基于变异的自动编码器(VAE)的推荐方法脱颖而出。vae s基于一个可信的概率框架,该框架适用于数据稀疏性,并且与其他基于深度学习的模型兼容以处理多模式数据。此外,vae s的深刻生成结构有助于以良好的方式进行贝叶斯推断。基于VAE的推荐算法已经引起了许多新型图形模型,并实现了有希望的性能。在本文中,我们进行了一项调查,以系统地总结了最近的基于VAE的推荐算法。总结了基于VAE的推荐算法的四个常用特征,并提出了基于VAE的建议算法的分类法。我们还确定了未来的研究指示,对推荐算法中VAE S的高级观点以及应用的应用,以激发推荐系统的VAE上的未来工作。
摘要。最近的视频蒙版自动编码器(MAE)作品已签署了以显着性为重点的改进的掩盖算法。这些作品利用了视觉提示,例如掩盖最突出区域的运动。但是,此类视觉提示的鲁棒性取决于输入视频的频率匹配基础假设。另一方面,自然语言描述是视频的信息密集表示,它隐含地捕获了显着性而无需特定于模态的标题,并且尚未探索视频MAE。为此,我们介绍了一种新颖的文本引导掩蔽算法(TGM),该算法掩盖了与配对字幕最高对应的视频区域。在不利用任何显式视觉提示的情况下,我们的TGM与最先进的掩蔽算法(如运动引导掩盖)具有竞争力。为了从自然语言的语义中进一步受益于掩盖重建的语义,我们接下来引入了一个统一的MAE和蒙版视频文本对比学习的统一框架。我们表明,在现有的掩蔽算法中,与纯MAE相比,在各种视频识别任务上,统一MAE和蒙版视频对比学习可以改善下游性能,尤其是对于线性探测。在这个统一的框架内,我们的TGM在五个动作识别和一个以自我为中心的数据集上实现了最佳的相对性能,从而突出了自然语言对掩盖视频建模的互补性。
摘要:对于具有肌萎缩性侧面硬化症(ALS)的受试者,言语和非言语通知受到很大的损害。基于视觉诱发电位(SSVEP)的大脑计算机界面(BCIS)是成功的替代增强通信之一,可帮助ALS与他人或设备进行通信。对于实际应用,噪音的影响大大降低了基于SSVEP的BCI的性能。因此,开发基于SSVEP的强大BCI对于帮助受试者与他人或设备进行交流非常重要。在这项研究中,提出了基于噪声抑制的特征提取和深度神经网络,以开发出强大的基于SSVEP的BCI。为了抑制噪音的影响,提出了一种denoising自动编码器来提取降解功能。为了获得实用应用的可接受识别结果,深层神经网络用于发现基于SSVEP的BCI的决策结果。实验结果表明,所提出的方法可以有效地抑制噪声的影响,并且基于SSVEP的BCI的性能可以大大改善。此外,深神经网络的表现优于其他方法。因此,提出的基于SSVEP的BCI对实际应用非常有用。
摘要:可逆逻辑门由于其低功耗而变得越来越重要,并且在低功耗设计中非常重要。另一方面,它具有低功耗并且可以应用于可逆逻辑。在本项目中,提出了一种基于可逆逻辑的 4x2 优先级编码器。基本上,可逆逻辑门包含 n×n 映射,因此我们可以轻松地从输入中检索输出。但是在普通的传统门的情况下这是不可能的。首先,该项目讨论了 Fredkin 门和通用可逆逻辑门 (URLG) 的设计。其次,该项目使用可逆逻辑门(Fredkin 和 URLG)来设计 4x2 优先级编码器。由于最大限度地减少了垃圾计数并减小了尺寸,因此选择它来设计 4x2 优先级编码器。
这款采用现代快速技术的单圈绝对式编码器通过 SSI 接口(同步串行接口)传输与轴设置相对应的位置值。AHS58-H 的分辨率最大为每转 65536 步。与 AHS58 系列不同,该编码器没有微控制器。因此,它是一个纯硬件编码器。控制模块向绝对编码器发送时钟束以获取位置数据。然后,旋转编码器将位置数据同步到控制模块的周期。可以使用功能输入选择计数方向。绝对式编码器直接安装在应用轴上,无需任何耦合。扭矩支架可防止绝对式编码器旋转。电气连接由 12 针圆形插头连接器完成。还提供带有 1 米电缆连接器的版本。