摘要。最近的视频蒙版自动编码器(MAE)作品已签署了以显着性为重点的改进的掩盖算法。这些作品利用了视觉提示,例如掩盖最突出区域的运动。但是,此类视觉提示的鲁棒性取决于输入视频的频率匹配基础假设。另一方面,自然语言描述是视频的信息密集表示,它隐含地捕获了显着性而无需特定于模态的标题,并且尚未探索视频MAE。为此,我们介绍了一种新颖的文本引导掩蔽算法(TGM),该算法掩盖了与配对字幕最高对应的视频区域。在不利用任何显式视觉提示的情况下,我们的TGM与最先进的掩蔽算法(如运动引导掩盖)具有竞争力。为了从自然语言的语义中进一步受益于掩盖重建的语义,我们接下来引入了一个统一的MAE和蒙版视频文本对比学习的统一框架。我们表明,在现有的掩蔽算法中,与纯MAE相比,在各种视频识别任务上,统一MAE和蒙版视频对比学习可以改善下游性能,尤其是对于线性探测。在这个统一的框架内,我们的TGM在五个动作识别和一个以自我为中心的数据集上实现了最佳的相对性能,从而突出了自然语言对掩盖视频建模的互补性。
我们介绍了内核弹性自动编码器(KAE),这是一种基于变压器架构的自我监管的生成模型,具有增强的分子设计性能。KAE采用了两个创新的损失函数:修改后的最大平均差异(M-MMD)和加权重建(L WCEL)。 与使用传统的kullback损失(vae的Leibler损失或标准的最大平均差异)相比,M-MMD损失显着改善了KAE的生成性能。 包括加权重建损失l wcel,Kae同时实现有效的生成和准确的重建,从而允许在现有生成方法中介于VAE和自动编码器之间中间的生成行为。 KAE的进一步进步包括与有条件生成的集成,在受限的优化中设定了新的最新基准测试。 此外, KAE已经证明了其在对接应用中产生具有良好结合亲密关系的分子的能力,如Autodock Vina和Glide分数所证明的那样,表现出优于培训数据集中所有现有的候选者。 除了分子设计之外,Kae还希望在广泛的应用中逐渐解决问题。KAE采用了两个创新的损失函数:修改后的最大平均差异(M-MMD)和加权重建(L WCEL)。与使用传统的kullback损失(vae的Leibler损失或标准的最大平均差异)相比,M-MMD损失显着改善了KAE的生成性能。包括加权重建损失l wcel,Kae同时实现有效的生成和准确的重建,从而允许在现有生成方法中介于VAE和自动编码器之间中间的生成行为。KAE的进一步进步包括与有条件生成的集成,在受限的优化中设定了新的最新基准测试。KAE已经证明了其在对接应用中产生具有良好结合亲密关系的分子的能力,如Autodock Vina和Glide分数所证明的那样,表现出优于培训数据集中所有现有的候选者。除了分子设计之外,Kae还希望在广泛的应用中逐渐解决问题。
减少的订单模型(ROM)在计算时间带来困难的许多工程领域都非常重要。已建立的方法采用基于投影的减少,例如正交分解。该运算符的线性性质的限制通常是通过局部还原子空间库来解决的,该库需要众多本地ROM来解决参数依赖性。我们的工作试图定义参数输入和减少基础之间的更广泛的映射,以实现生成建模的目的。我们建议使用变分自动编码器(VAE)代替典型使用的聚类或互插操作,以推断基本向量,称为模式,该模式近似于任何和每个参数输入状态的模型响应的流形。衍生的ROM仍然依赖于投影库,该投影库是基于全订单模型模拟而构建的,从而保留了刻痕的物理内涵。但是,它另外利用了系数的矩阵,该矩阵将每个局部样品响应和动力学与参数输入域之间的全局现象相关联。VAE方案用于近似任何输入状态的这些系数。这种耦合导致高精油的低阶表示,这特别适合模型依赖性或激发性状导致动态行为跨越多个响应制度的问题。对VAE表示的概率处理允许在还原碱基上进行不确定性定量,然后可以将其传播到ROM响应中。在具有磁滞和多参数依赖性的开放式仿真基准和以非线性材料行为和模型不确定性为特征的大型风力涡轮机塔上,在开放式仿真基准上进行了验证。
摘要。在本文中,我们引入了一个新的生成模型,即无自动编码器(DolfIN)的扩散布局变压器,该变压器在现有方法上可显着提高建模能力和透明度。Dolfin采用基于变压器的扩散过程来建模布局生成。除了有效的双向(非因果关节)序列表示外,我们还设计了一种自回归扩散模型(Dolfin-ar),该模型尤其擅长捕获邻居对象的丰富局部语义相关性,例如对齐,大小和重叠。在对标准的无条件布局生成基准进行评估时,Dolfin尤其优于各种指标的先前方法,例如FID,对齐,重叠,Maxiou和DocSim分数。此外,Dolfin的应用程序不仅仅是布局生成,因此它适用于对其他类型的几何结构(例如线段)进行建模。我们的实验既提出了定性和定量结果,以证明Dolfin的优势。
自我监督的学习吸引了越来越多的关注,因为它在没有注释的情况下从数据中学习了数据驱动的代表。基于视觉变压器的自动编码器(VIT-AE)(He等人,2021)是一种最近的自我监督的学习技术,它采用补丁掩盖策略来学习有意义的潜在空间。在本文中,我们专注于改善VIT-AE(绰号为VIT-AE ++),以更有效地表示2D和3D医疗信息。我们提出了两个新的损失功能,以增强训练阶段的表示。第一个损失术语旨在通过考虑建立依赖性并间接改善表示形式来改善自我重建。第二损失项的利用对比损失,以直接从两个随机掩盖的视图中优化表示形式。作为独立的贡献,我们将Vit-ae ++扩展到3D fash-im,以进行体积医学图像。我们在自然图像和医学图像上广泛评估VIT-AE ++,这表明对香草Vit-Ae的持续改善及其优于其他对比学习方法。我们的代码可在https://github.com/chinmay5/vit_ae_plus_plus.git关键字:表示;自学学习;蒙版视觉变压器
本文提出了一个有效的轻量级深空自动编码器(SRAE)模型,以检测视频监视系统中的异常事件。在时间至关重要的实时情况下,轻量级网络至关重要。此外,它可以部署在嵌入式系统或移动设备等低资源设备上。这使其成为现实情况可能缺乏资源的现实情况的方便选择。所提出的网络包括一个三层残留的编码器架构,该架构采用来获取视频中正常事件的显着空间特征。然后,重建损失被用于发现异常情况,其中正常框架的重建良好而重建损失较低,而异常的帧被发现相反。该模型的效率由两个基准数据集测试,加利福尼亚大学圣地亚哥大学(UCSD)行人2(PED 2)和CUHK Avenue,分别为两个数据集实现了AUC≈95%和81%。因此,其性能被证明与最先进的模型相媲美。
功能磁共振成像(fMRI)的摘要最新进展有助于以前的早期产前和新生儿脑发育的无法访问的轨迹。迄今为止,胎儿 - 神经fMRI数据的解释依赖于线性分析模型,类似于成人神经成像数据。但是,与成人大脑不同,胎儿和新生大脑的发展迅速,超过了整个寿命的任何其他大脑发育期。因此,在沿着产前 - 神经期连续体的大脑发育的关键时期,传统的线性计算模型可能无法充分捕获这些加速且复杂的神经发育轨迹。为了获得对胎儿 - 神经性大脑发育的细微理解,包括非线性增长,我们首次开发了数量的,全系统范围的大脑对大脑活动的代表(胎儿(> 500)(> 500)的(> 500)的早产和完整的新生儿,使用了一种不受欢迎的模型,以优于替代的综合模型,以前陈述了一种模型(Vae),以前是一种模型(Vae),以前是一种模型(Vae),以前是一种模型(VAI),是一种模型,是一种模型,是一种模型)健康成年人的数据。在这里,我们证明了非线性脑特征,即潜在变量,该特征是在人类成年人的RSFMRI上预先介绍的,具有重要的个体神经特征,携带了重要的个体神经特征,从而改善了产前神经性脑脑成熟模式的表示,并具有更准确的和稳定的年龄预测与新生酸盐群体相比,并具有稳定的年龄预测。使用VAE解码器,我们还揭示了跨越感觉和默认模式网络的不同功能性脑网络。使用vae,我们能够可靠地捕获和量化复合物,非线性胎儿 - 神经性神经连通性。这将为详细绘制其起源于胎儿生活的健康和异常功能性脑签名的详细映射。
脑电图 (EEG) 是一种非侵入性工具,通过将电极放置在人体头皮上来测量大脑活动,从而检测神经元放电电压。虽然 EEG 技术存在信噪比差和仅捕获表面大脑活动等局限性,但它仍然是诊断癫痫和睡眠障碍等疾病的可靠方法 [ 1 ]。自动编码器 [ 2 ] 是一类特殊的神经网络,用作编码器-解码器对。编码器通过逐步减少各层的神经元数量,最终达到瓶颈层,将输入数据压缩为压缩表示,称为潜在空间。相反,解码器通过逐渐增加后续层中的神经元数量从这种压缩形式重建输入数据。这种压缩和重建过程使网络能够有效地捕获输入数据的显着特征。卷积变分自动编码器 (CVAE) [ 3 , 4 ] 通过合并卷积层扩展了此框架,使其特别适合处理图像数据。与标准自动编码器不同,CVAE 生成概率潜在空间。这种概率方法有助于学习稳健的特征,并增强模型生成类似于训练数据的新数据实例的能力。利用卷积层,CVAE 可以利用数据中的空间层次结构,从而增强其分析和重建图像数据中固有的复杂模式和纹理的能力。因此,CVAE 在要求详细
摘要 — 基于运动想象的脑机接口 (MI-BCI) 需要校准程序来为新用户调整系统。此过程非常耗时,并且会阻止新用户立即使用系统。由于 MI 信号的主体相关特性,开发独立于主体的 MI-BCI 系统以减少校准阶段仍然具有挑战性。已经开发了许多基于机器学习和深度学习的算法来从 MI 信号中提取高级特征,以提高 BCI 系统对主体的泛化能力。然而,这些方法基于监督学习并提取可用于区分各种 MI 信号的特征。因此,这些方法无法在 MI 信号中找到共同的潜在模式,并且其泛化水平有限。本文提出了一种基于监督自动编码器 (SAE) 的独立于主体的 MI-BCI 来绕过校准阶段。建议的框架在 BCI 竞赛 IV 中的数据集 2a 上得到了验证。模拟结果表明,在九个受试者中的八个中,我们的 SISAE 模型在平均 Kappa 值方面优于传统的和广泛使用的 BCI 算法、常见空间和滤波器组常见空间模式。
摘要:在不同投影场景下,气候模拟的时空分辨率的复杂性产生了多种气候模式。本文通过一种无监督的深度学习技术提出了一种新的数据驱动的气候分类工作,该技术可以在尺寸上降低大量时空数值气候投影数据中的大量紧凑表示。我们旨在确定捕获多个气候变量的不同区域以及在不同气候变化方案下的未来变化。我们的方法利用卷积自动编码器与K-均值聚类(标准自动编码器)和在线聚类相结合,基于sindhorn - Knopp算法(群集自动编码器),整个Conterminous美国(CONUS)(CONUS)(CONUS)捕获来自数据驱动的气候型号的独特气候式的goldement offeration Androm intery Demplyicals todlement todlement todlemant througation dynerical offer -Gromys toym intery dynerical demancortial dynerical ofderational dynerical officolt offer。 (GFDL-ESM2G)。开发的方法在多个变暖方案下以0.125 8的0.125 8将70年的GFDL-ESM2G仿真压缩为较低维空间的空间分辨率为660000倍,然后在150年的GFDL-ESM2G仿真数据中测试了150年。结果表明,五个气候群体捕获了与人类专家定义的已知气候类别相匹配的物理合理和空间稳定的气候效果。结果还表明,与使用标准自动编码器相比,使用群集自动编码器可以将聚类的计算时间限制为9.2倍。我们五个独特的气候模式是由深度学习引起的 - 基于较低维空间的聚类,从而使我们能够在整个综合美国立即提供有关水力气学及其空间异质性的见解,而无需下载大量的大气候数据集。