摘要。与视觉信号相比,放置在人体四肢上的惯性测量单元(IMU)可以捕获准确的运动信号,同时对照明变化和遮挡具有鲁棒性。尽管这些角色 - 在帮助以以上为中心的行动识别方面是有价值的,但IMU的潜力仍然不足。在这项工作中,我们提出了一种新颖的动作识别方法,该方法将来自人体磨损的IMU的运动数据与以自我为中心的视频相结合。由于标记的多模式数据的稀缺性,我们设计了一种基于MAE的自我监管预处理方法,通过对视觉和运动信号之间的自然相关性进行建模,从而获得了强大的多模式表示。为了建模整个体内的多个IMU设备的复合关系,我们利用了多个IMU设备中的协作动力学,并建议将人类关节的相对运动特征置入图形结构中。实验表明我们的方法可以在多个公共数据集上实现最新性能。在更具挑战性的场景中,我们的基于MAE的预培训和基于图的IMU建模的有效性得到了进一步的验证,包括部分缺少IMU设备和视频质量损坏,从而促进现实世界中更灵活的用法。
本研究采用数据驱动的方法来研究物理系统振动,重点关注两个主要方面:使用变异自动编码器(VAE)生成物理数据(即数据“相似”与通过现实世界过程获得的使用变压器,以便使用体内稀疏传感器(观察者)中的信息在时间空间中连续预测柔性身体非平稳振动(2D时间序)。 VAE经过从作者进行的实验中收集的涡旋诱导振动(VIV)数据进行训练,然后负责生成类似于实验的合成VIV数据。 然后使用合成数据来训练一个变压器结构,其目标是使用稀疏观测值不断预测时间空间的振动。 针对实际实验测试了变压器(从未见过实际数据),并将其性能与对实际数据训练的相同体系结构进行了比较。 这样做,VAE的能力生成保留其培训数据内在属性的数据(即) 评估身体)。 最终提出了变压器体系结构,LSTM和DNN的预测性能之间的比较。使用变压器,以便使用体内稀疏传感器(观察者)中的信息在时间空间中连续预测柔性身体非平稳振动(2D时间序)。VAE经过从作者进行的实验中收集的涡旋诱导振动(VIV)数据进行训练,然后负责生成类似于实验的合成VIV数据。然后使用合成数据来训练一个变压器结构,其目标是使用稀疏观测值不断预测时间空间的振动。针对实际实验测试了变压器(从未见过实际数据),并将其性能与对实际数据训练的相同体系结构进行了比较。这样做,VAE的能力生成保留其培训数据内在属性的数据(即身体)。最终提出了变压器体系结构,LSTM和DNN的预测性能之间的比较。
摘要。最近的视频蒙版自动编码器(MAE)作品已签署了以显着性为重点的改进的掩盖算法。这些作品利用了视觉提示,例如掩盖最突出区域的运动。但是,此类视觉提示的鲁棒性取决于输入视频的频率匹配基础假设。另一方面,自然语言描述是视频的信息密集表示,它隐含地捕获了显着性而无需特定于模态的标题,并且尚未探索视频MAE。为此,我们介绍了一种新颖的文本引导掩蔽算法(TGM),该算法掩盖了与配对字幕最高对应的视频区域。在不利用任何显式视觉提示的情况下,我们的TGM与最先进的掩蔽算法(如运动引导掩盖)具有竞争力。为了从自然语言的语义中进一步受益于掩盖重建的语义,我们接下来引入了一个统一的MAE和蒙版视频文本对比学习的统一框架。我们表明,在现有的掩蔽算法中,与纯MAE相比,在各种视频识别任务上,统一MAE和蒙版视频对比学习可以改善下游性能,尤其是对于线性探测。在这个统一的框架内,我们的TGM在五个动作识别和一个以自我为中心的数据集上实现了最佳的相对性能,从而突出了自然语言对掩盖视频建模的互补性。
摘要。在本文中,我们引入了一个新的生成模型,即无自动编码器(DolfIN)的扩散布局变压器,该变压器在现有方法上可显着提高建模能力和透明度。Dolfin采用基于变压器的扩散过程来建模布局生成。除了有效的双向(非因果关节)序列表示外,我们还设计了一种自回归扩散模型(Dolfin-ar),该模型尤其擅长捕获邻居对象的丰富局部语义相关性,例如对齐,大小和重叠。在对标准的无条件布局生成基准进行评估时,Dolfin尤其优于各种指标的先前方法,例如FID,对齐,重叠,Maxiou和DocSim分数。此外,Dolfin的应用程序不仅仅是布局生成,因此它适用于对其他类型的几何结构(例如线段)进行建模。我们的实验既提出了定性和定量结果,以证明Dolfin的优势。
摘要。大规模对结构的手动检查和评估是劳动密集型的,而且通常是不可行的,而数据驱动的机器学习技术可能无法识别相关的失败机制,并且对以前看不见的条件的概括不佳,尤其是在有限的信息中遇到的。我们提出了一个物理知识的变异自动编码器公式,以在测量中删除混杂源的图表学习,以计算基于物理模型的潜在参数的后验分布,并在有限测量值时预测结构的响应。自动编码器的潜在空间通过一组基于物理的潜在变量进行增强,这些变量可解释,并以先验分布和基于物理模型的形式允许域知识包含在自动编码器公式中。为了防止模型的数据驱动的组件覆盖已知的物理学,训练目标中包括一个正则化项,该术语对潜在空间和生成模型预测施加约束。在合成案例研究中评估了所提出的方法的可行性。
1 库尔德斯坦医科大学辅助医学学院放射学系,萨南达季邮政信箱 66177-13446,伊朗;salar.bijari89@gmail.com 2 伊朗医科大学医学院神经外科系,德黑兰邮政信箱 14496-14535,伊朗;sayfollahisahar@gmail.com 3 库尔德斯坦大学工程学院机械工程组,萨南达季邮政信箱 66177-15175,伊朗;mardokh94@gmail.com 4 沙希德萨杜吉医科大学公共卫生学院老龄化与健康系,亚兹德邮政信箱 89151-73160,伊朗;s.bijari8810@gmail.com 5 德黑兰医科大学放射学系,德黑兰邮政信箱 14197-33151,伊朗; moradian.sm@gmail.com 6 伊朗阿瓦士 Jundishapur 医科大学 Golestan 医院放射肿瘤科,阿瓦士邮政信箱 61357-15794;zibazaheir@gmail.com 7 伊朗阿瓦士 Jundishapur 医科大学医学院医学物理学系,阿瓦士邮政信箱 61357-15794 8 伊朗阿瓦士 Jundishapur 医科大学癌症研究中心,阿瓦士邮政信箱 61357-15794 * 通信地址:rezaei-sm@ajums.ac.ir
语义文本相关性是语义相似性的更广泛的影响。它衡量了两个文本传达相似含义或主题或共享相关概念或上下文的范围。这种相关性概念可以在各种应用中(例如文档聚类和汇总)中提出。SEMREL-2024是Semeval-2024中的共享任务,旨在通过为包括阿拉伯语在内的14种语言和方言提供数据集来减少语义相关性任务中的差距。本文介绍了我们参与轨道A(阿尔及利亚和摩洛哥方言)和轨道B(现代标准阿拉伯语)的参与。在监督轨道(a)中对基于BERT的模型进行了精心调整,而基于BERT的CONINE相似性则用于无监督的轨道(B)。我们的系统在Semrel-2024中对MSA排名第1,Spearman相关得分为0.49。,我们为摩洛哥排名第5位,而阿尔及利亚的排名分别为0.83和0.53。
遗传算法 (GA) 已在工程或医学等不同领域得到研究,以优化网络路由或医学图像分割等各种问题。此外,它们还被用于自动寻找深度神经网络的最佳架构。但是,据我们所知,它们尚未被用作 Transformer 模型的权重优化器。虽然梯度下降一直是这项任务的主要范例,但我们相信 GA 有其优势。在本文中,我们将证明尽管 GA 能够微调 Transformer 编码器,但它们的泛化能力比 Adam 差得多;然而,仔细观察,GA 从两个不同的预训练数据集中利用知识的能力超过了 Adam。
低释气性为防止真空室内压力急剧升高,真空兼容编码器不得释放大量气体。在超高真空中,每个部件都至关重要。例如,某些塑料会释出溶剂。这类塑料通常包含在电路板、粘合剂或涂层中,但在超高真空环境中部署的设备中应完全避免使用。这就是海德汉公司采用真空兼容电路板、粘合剂和涂层的原因。在超高真空环境中,必须将部件数量减至最少。例如,信号转换器应放在真空室外,这就是海德汉公司提供带有外部信号转换器的真空兼容编码器的原因。在仅需要高真空的应用中,这些设备也可放置在真空室内。
轴P7316是一个功能齐全的16通道视频编码器,可为任何模拟摄像机系统增加IP好处。它支持标准和高清模拟摄像机,最大分辨率为4K,以及RS485的PTZ控制。此机架安装的编码器具有双向音频和智能分析的支持,例如运动检测和主动篡改警报。SFP插槽可实现长距离光纤连接和网络冗余。轴P7316包括邮政流,并支持H.264/H.265,以大大降低带宽和存储要求。此外,它提供内置的网络安全功能,例如签名固件和安全启动。