表格数据生成的最新进展大大提高了合成数据质量。然而,由于复杂的分布和数据类型的表格数据的混合物,将扩散模型扩展到表格数据很具有挑战性。本文介绍了T ab yn,该方法是通过在变异自动编码器(VAE)制作的潜在空间中掌握扩散模型来综合表格数据的方法。提议的T ab s yn的关键优势包括(1)普遍性:通过将它们转换为单个统一空间并明确捕获柱间关系来处理广泛的数据类型的能力; (2)质量:优化潜在嵌入的分布以增强扩散模型的随后训练,这有助于生成高质量的合成数据,(3)速度:相比,相比,逆向步骤数量和更快的合成速度要比现有基于扩散的方法少得多。具有五个指标的六个数据集上的广泛实验表明,T ab yn的表现优于现有方法。具体而言,与最具竞争力的基线相比,列的分布和配对列相关估计的错误率降低了86%和67%。该代码已在https://github.com/amazon-science/tabsyn上提供。
主要关键词