生物网络通常用于生物医学和健康保健领域,以有效地模拟复杂的生物系统与与生物实体联系的相互作用的结构。但是,由于它们具有高维度和低样本量的特征,直接在生物网络上应用深度学习模型通常会面临严重的过度拟合。在这项工作中,我们提出了R-Mixup,这是一种基于混合的数据增强技术,该技术适合具有优化训练效率的生物网络的邻接矩阵的符号正定(SPD)属性。R-Mixup中的相互关系过程利用了Riemannian歧管的对数 - 欧几里得距离指标,从而有效地解决了香草混合物的肿胀效果和任意错误的标签问题。我们通过五个现实世界的生物网络数据集在回归和分类任务上演示了R-Mixup的有效性。此外,我们得出了一个普遍忽略的必要条件,用于识别生物网络的SPD矩阵,并密切研究其对模型性能的影响。代码实现可以在附录E中找到。
生物网络通常用于生物医学和医疗保健领域,以有效地模拟复杂生物系统的结构以及连接生物实体的相互作用。然而,由于其高维和低样本量的特点,直接将深度学习模型应用于生物网络通常会面临严重的过拟合。在本文中,我们提出了一种基于 Mixup 的数据增强技术 R-Mixup,它适合生物网络邻接矩阵的对称正定 (SPD) 性质,并优化了训练效率。R-Mixup 中的插值过程利用了黎曼流形中的对数欧几里德距离度量,有效地解决了 vanilla Mixup 的膨胀效应和任意错误的标签问题。我们用五个真实的生物网络数据集在回归和分类任务上证明了 R-Mixup 的有效性。此外,我们推导出一个常被忽视的识别生物网络 SPD 矩阵的必要条件,并实证研究了其对模型性能的影响。代码实现可以在附录E中找到。
数据增强现在是图像训练过程的重要组成部分,因为它可以有效地防止过度拟合并使模型对噪声数据集更加稳健。最近的混合增强策略已经取得了进展,可以生成可以丰富显着性信息的混合掩码,这是一种监督信号。然而,这些方法在优化混合掩码时会产生很大的计算负担。出于这个动机,我们提出了一种新颖的显着性感知混合方法GuidedMixup,旨在以较低的计算开销保留混合图像中的显着区域。我们开发了一种高效的配对算法,该算法致力于最小化配对图像的显着区域的冲突并在混合图像中实现丰富的显着性。此外,GuidedMixup通过平滑地插值两个配对图像来控制每个像素的混合率以更好地保留显着区域。在多个数据集上的实验表明,GuidedMixup 在分类数据集上实现了数据增强开销和泛化性能之间的良好平衡。此外,我们的方法在损坏或精简数据集的实验中也表现出良好的性能。
文本对图像(T2I)生成模型最近成为一种强大的工具,可以创建照片现实的图像并引起多种应用。然而,将T2i模型的有效整合到基本图像分类任务中仍然是一个悬而未决的问题。促进图像锁骨表现的一种普遍的策略是通过使用T2I模型生成的合成图像来增强训练集。在这项研究中,我们仔细检查了当前发电和常规数据增强技术的缺点。我们的分析表明,这些方法努力产生既忠实的(就前景对象)而且针对领域概念的多样化(在背景上下文中)。为了应对这一挑战,我们引入了一种创新的类数据增强方法,称为diff-mix 1,该方法通过在类之间执行图像翻译来丰富数据集。我们的经验结果是,DIFF-MIX在信仰和多样性之间取得了更好的平衡,从而导致各种图像分类场景之间的性能显着提高,包括域名数据集的少量,常规和长尾分类。
摘要 — 数据增强是深度模型训练过程中帮助泛化的一种常见做法。在生理时间序列分类的背景下,以前的研究主要集中在标签不变的数据增强方法。然而,另一类出现在计算机视觉领域的增强技术(即 Mixup)尚未在时间序列领域得到充分探索。在本研究中,我们系统地回顾了六个生理数据集上的基于混合的增强,包括 mixup、cutmix 和流形 mixup,评估它们在不同感官数据和分类任务中的表现。我们的结果表明,三种基于混合的增强可以持续提高六个数据集的性能。更重要的是,这种改进不依赖于专家知识或广泛的参数调整。最后,我们概述了基于混合的增强方法的独特属性,并强调了在生理时间序列数据中使用基于混合的增强的潜在好处。我们的代码和结果可在 https://github.com/comp-well-org/Mix-Augmentation-for-Physiological-Time-Series-Classification 上找到。索引术语 — 数据增强、混合、生理时间序列
摘要 — 目标:构建一个可以在单个受试者的小型 EEG 训练集上进行训练的 DL 模型提出了一个有趣的挑战,这项工作正试图解决这一挑战。具体来说,本研究试图避免长时间的 EEG 数据收集过程,并且不组合多个受试者的训练数据集,因为这会对分类性能产生不利影响,因为受试者之间的个体间差异很大。方法:使用大约 120 次 EEG 试验对定制的具有混合增强功能的卷积神经网络进行训练,每个模型仅针对一个受试者。结果:经过修改的具有混合增强功能的 ResNet18 和 DenseNet121 模型分别实现了 0.920(95% 置信区间:0.908,0.933)和 0.933(95% 置信区间:0.922,0.945)的分类准确率。结论:我们表明,尽管本研究使用的训练数据集有限,但与同一数据集上先前研究中的其他 DL 分类器相比,设计的分类器具有更高的分类性能。
信用卡欺诈对经济构成重大威胁。虽然图神经网络(GNN) - 基于基于的欺诈检测方法表现良好,但它们经常忽略节点局部结构对预测的因果影响。本文介绍了一种新颖的信用卡欺诈检测方法,即ca usal t emporal g raph n eural n etwork(cat-gnn),该方法利用了因果不变的学习来揭示事务数据中的固有相关性。通过将问题分解为发现和干预阶段,CAT-GNN可以识别事务图中的因果节点,并应用因果混合策略来增强模型的效果和解释性。cat-gnn由两个关键组成部分组成:因果检查员和因果关系。因果检查员利用时间注意机制中的调整权重识别因果和环境节点而无需引入其他参数。随后,因果关系基于一组节点对环境节点进行因果混合性。在三个数据集上进行了评估,包括一个私人财务数据集和两个公共数据集,CAT-GNN表现出优于现有最新方法的卓越性能。我们的发现突出了将因果原因与图形神经网络相结合以提高金融交易中欺诈检测能力的潜力。