摘要。与视觉信号相比,放置在人体四肢上的惯性测量单元(IMU)可以捕获准确的运动信号,同时对照明变化和遮挡具有鲁棒性。尽管这些角色 - 在帮助以以上为中心的行动识别方面是有价值的,但IMU的潜力仍然不足。在这项工作中,我们提出了一种新颖的动作识别方法,该方法将来自人体磨损的IMU的运动数据与以自我为中心的视频相结合。由于标记的多模式数据的稀缺性,我们设计了一种基于MAE的自我监管预处理方法,通过对视觉和运动信号之间的自然相关性进行建模,从而获得了强大的多模式表示。为了建模整个体内的多个IMU设备的复合关系,我们利用了多个IMU设备中的协作动力学,并建议将人类关节的相对运动特征置入图形结构中。实验表明我们的方法可以在多个公共数据集上实现最新性能。在更具挑战性的场景中,我们的基于MAE的预培训和基于图的IMU建模的有效性得到了进一步的验证,包括部分缺少IMU设备和视频质量损坏,从而促进现实世界中更灵活的用法。
本研究采用数据驱动的方法来研究物理系统振动,重点关注两个主要方面:使用变异自动编码器(VAE)生成物理数据(即数据“相似”与通过现实世界过程获得的使用变压器,以便使用体内稀疏传感器(观察者)中的信息在时间空间中连续预测柔性身体非平稳振动(2D时间序)。 VAE经过从作者进行的实验中收集的涡旋诱导振动(VIV)数据进行训练,然后负责生成类似于实验的合成VIV数据。 然后使用合成数据来训练一个变压器结构,其目标是使用稀疏观测值不断预测时间空间的振动。 针对实际实验测试了变压器(从未见过实际数据),并将其性能与对实际数据训练的相同体系结构进行了比较。 这样做,VAE的能力生成保留其培训数据内在属性的数据(即) 评估身体)。 最终提出了变压器体系结构,LSTM和DNN的预测性能之间的比较。使用变压器,以便使用体内稀疏传感器(观察者)中的信息在时间空间中连续预测柔性身体非平稳振动(2D时间序)。VAE经过从作者进行的实验中收集的涡旋诱导振动(VIV)数据进行训练,然后负责生成类似于实验的合成VIV数据。然后使用合成数据来训练一个变压器结构,其目标是使用稀疏观测值不断预测时间空间的振动。针对实际实验测试了变压器(从未见过实际数据),并将其性能与对实际数据训练的相同体系结构进行了比较。这样做,VAE的能力生成保留其培训数据内在属性的数据(即身体)。最终提出了变压器体系结构,LSTM和DNN的预测性能之间的比较。
摘要。最近的视频蒙版自动编码器(MAE)作品已签署了以显着性为重点的改进的掩盖算法。这些作品利用了视觉提示,例如掩盖最突出区域的运动。但是,此类视觉提示的鲁棒性取决于输入视频的频率匹配基础假设。另一方面,自然语言描述是视频的信息密集表示,它隐含地捕获了显着性而无需特定于模态的标题,并且尚未探索视频MAE。为此,我们介绍了一种新颖的文本引导掩蔽算法(TGM),该算法掩盖了与配对字幕最高对应的视频区域。在不利用任何显式视觉提示的情况下,我们的TGM与最先进的掩蔽算法(如运动引导掩盖)具有竞争力。为了从自然语言的语义中进一步受益于掩盖重建的语义,我们接下来引入了一个统一的MAE和蒙版视频文本对比学习的统一框架。我们表明,在现有的掩蔽算法中,与纯MAE相比,在各种视频识别任务上,统一MAE和蒙版视频对比学习可以改善下游性能,尤其是对于线性探测。在这个统一的框架内,我们的TGM在五个动作识别和一个以自我为中心的数据集上实现了最佳的相对性能,从而突出了自然语言对掩盖视频建模的互补性。
摘要。在本文中,我们引入了一个新的生成模型,即无自动编码器(DolfIN)的扩散布局变压器,该变压器在现有方法上可显着提高建模能力和透明度。Dolfin采用基于变压器的扩散过程来建模布局生成。除了有效的双向(非因果关节)序列表示外,我们还设计了一种自回归扩散模型(Dolfin-ar),该模型尤其擅长捕获邻居对象的丰富局部语义相关性,例如对齐,大小和重叠。在对标准的无条件布局生成基准进行评估时,Dolfin尤其优于各种指标的先前方法,例如FID,对齐,重叠,Maxiou和DocSim分数。此外,Dolfin的应用程序不仅仅是布局生成,因此它适用于对其他类型的几何结构(例如线段)进行建模。我们的实验既提出了定性和定量结果,以证明Dolfin的优势。
摘要。大规模对结构的手动检查和评估是劳动密集型的,而且通常是不可行的,而数据驱动的机器学习技术可能无法识别相关的失败机制,并且对以前看不见的条件的概括不佳,尤其是在有限的信息中遇到的。我们提出了一个物理知识的变异自动编码器公式,以在测量中删除混杂源的图表学习,以计算基于物理模型的潜在参数的后验分布,并在有限测量值时预测结构的响应。自动编码器的潜在空间通过一组基于物理的潜在变量进行增强,这些变量可解释,并以先验分布和基于物理模型的形式允许域知识包含在自动编码器公式中。为了防止模型的数据驱动的组件覆盖已知的物理学,训练目标中包括一个正则化项,该术语对潜在空间和生成模型预测施加约束。在合成案例研究中评估了所提出的方法的可行性。
1 库尔德斯坦医科大学辅助医学学院放射学系,萨南达季邮政信箱 66177-13446,伊朗;salar.bijari89@gmail.com 2 伊朗医科大学医学院神经外科系,德黑兰邮政信箱 14496-14535,伊朗;sayfollahisahar@gmail.com 3 库尔德斯坦大学工程学院机械工程组,萨南达季邮政信箱 66177-15175,伊朗;mardokh94@gmail.com 4 沙希德萨杜吉医科大学公共卫生学院老龄化与健康系,亚兹德邮政信箱 89151-73160,伊朗;s.bijari8810@gmail.com 5 德黑兰医科大学放射学系,德黑兰邮政信箱 14197-33151,伊朗; moradian.sm@gmail.com 6 伊朗阿瓦士 Jundishapur 医科大学 Golestan 医院放射肿瘤科,阿瓦士邮政信箱 61357-15794;zibazaheir@gmail.com 7 伊朗阿瓦士 Jundishapur 医科大学医学院医学物理学系,阿瓦士邮政信箱 61357-15794 8 伊朗阿瓦士 Jundishapur 医科大学癌症研究中心,阿瓦士邮政信箱 61357-15794 * 通信地址:rezaei-sm@ajums.ac.ir
摘要 — 近年来,随着人们对宠物保健的兴趣日益浓厚,兽医对计算机辅助诊断 (CAD) 系统的需求也随之增加。由于缺乏足够的放射学数据,兽医 CAD 的发展陷入停滞。为了克服这一挑战,我们提出了一种基于变分自动编码器的生成主动学习框架。此方法旨在缓解兽医 CAD 系统可靠数据的稀缺问题。本研究利用了包括心脏扩大放射图像数据和慢性肾病超声图像数据的数据集。在删除注释并标准化图像后,我们采用了一个数据增强框架,该框架包括数据生成阶段和用于过滤生成数据的查询阶段。实验结果表明,当通过该框架生成的数据添加到生成模型的训练数据中时,射线图像中的 frechet 起始距离从 84.14 减小到 50.75,超声图像中的 frechet 起始距离从 127.98 减小到 35.16。随后,当生成的数据被纳入分类模型的训练中时,混淆矩阵的真负数也从射线照片上的 0.16 提高到 0.66,超声图像上的真负数从 0.44 提高到 0.64。所提出的框架有可能解决医学 CAD 数据稀缺的挑战,从而促进其发展。
摘要 - 在这项工作中,我们提出了一种破坏性节俭的激光雷达感知数据流,该数据流产生而不是感知环境的一部分,这些部分是基于对环境的广泛培训,或者对整体预测准确性的影响有限的。因此,所提出的方法将传感能量与训练数据进行交易,以获取低功率机器人和自动导航,以便用传感器省将,从而在一次电池充电时延长了其寿命。我们提出的为此目的提出的生成预训练策略称为径向掩盖的自动编码(R-MAE),也可以在典型的激光雷达系统中很容易实施,通过选择性激活和控制在现场操作过程中随机生成的角区域的激光功率。我们的广泛评估表明,使用R-MAE进行预训练可以重点关注数据的径向段,从而比常规程序更有效地限制了空间关系和对象之间的距离。因此,所提出的方法不仅降低了传感能量,而且还提高了预测准确性。例如,我们对Waymo,Nuscenes和Kitti数据集进行了广泛的评估表明,该方法在跨数据集的检测任务的平均精度提高了5%,并且从Waymo和Nuscenes转移到Kitti的检测任务的平均精度提高了4%。在3D对象检测中,它在KITTI数据集中的中等难度水平下,在AP中最多可增强小对象检测。即使使用90%的径向掩蔽,它在Waymo数据集中所有对象类中的MAP/MAPH中都超过了基线模型。此外,我们的方法在Nuscenes数据集上分别获得了MAP和NDS的3.17%和2.31%的提高,这表明了其在单个和融合的LIDAR相机模态方面的有效性。代码可在https://github.com/sinatayebati/radial Mae上公开获取。索引项 - lidar预训练,掩盖自动编码器,超有效的3D传感,边缘自治。
这项研究对在指数股票市场的背景下对变量自动编码器(VAE)的利用进行了深入探索,这是期权定价的关键方面。此外,我们的研究还研究了有关现货价格爆发的神经网络作品的预测能力,并具有专门的现场模型,以预测基于现货动态的波动性表面的变化。通过VAE的全面数据处理和结构化,我们创建了一个模型,该模型能够从仅10点信息点生成准确且几乎无套的无动力表面。该模型也证明了在生成以前看不见的基本资产的波动表面方面的促进效率。将现货价格变化作为条件变量,我们成功地创建了一个强大的风险管理工具,能够预测各种未来情况的波动表面。
推荐系统已成为将人们与信息联系起来的重要工具。稀疏,复杂且快速增长的数据为传统推荐算法带来了新的挑战。为了克服这些挑战,已经提出了各种基于深度学习的建议算法。其中,基于变异的自动编码器(VAE)的推荐方法脱颖而出。vae s基于一个可信的概率框架,该框架适用于数据稀疏性,并且与其他基于深度学习的模型兼容以处理多模式数据。此外,vae s的深刻生成结构有助于以良好的方式进行贝叶斯推断。基于VAE的推荐算法已经引起了许多新型图形模型,并实现了有希望的性能。在本文中,我们进行了一项调查,以系统地总结了最近的基于VAE的推荐算法。总结了基于VAE的推荐算法的四个常用特征,并提出了基于VAE的建议算法的分类法。我们还确定了未来的研究指示,对推荐算法中VAE S的高级观点以及应用的应用,以激发推荐系统的VAE上的未来工作。
