摘要 — 以时间序列形式出现的信号测量是医学机器学习应用中最常见的数据类型之一。此类数据集通常规模较小,收集和注释成本高昂,并且可能涉及隐私问题,这阻碍了我们为生物医学应用训练大型、最先进的深度学习模型的能力。对于时间序列数据,我们可以用来扩展数据集大小的数据增强策略套件受到需要维护信号基本属性的限制。生成对抗网络 (GAN) 可以用作另一种数据增强工具。在本文中,我们提出了 TTS-CGAN,这是一种基于 Transformer 的条件 GAN 模型,可以在现有的多类数据集上进行训练并生成任意长度的特定于类的合成时间序列序列。我们详细阐述了模型架构和设计策略。我们的模型生成的合成序列与真实序列没有区别,可以用来补充或替换相同类型的真实信号,从而实现数据增强的目标。为了评估生成数据的质量,我们修改了小波相干性度量,以便能够比较两组信号之间的相似性,并进行了一个案例研究,其中使用合成数据和真实数据的混合来训练用于序列分类的深度学习模型。结合其他可视化技术和定性评估方法,我们证明 TTS-CGAN 生成的合成数据与真实数据相似,并且我们的模型比其他为时间序列数据生成构建的最先进的 GAN 模型表现更好。TTS-CGAN 源代码:github.com/imics-lab/tts-cgan
主要关键词