摘要 - 合成数据生成研究一直以快速的速度进行,并且时不时地设计了新颖的方法。早些时候,使用统计方法来学习真实数据的分布,然后从这些分布中采样合成数据。生成模型的最新进展导致了复杂的高维数据集的更有效的建模。此外,隐私问题也导致了较小的隐私漏洞风险较小的强大模型的发展。首先,本文对表格数据生成和评估矩阵的现有技术进行了全面调查。其次,它详细阐述了对ART合成数据生成技术的比较分析,特别是针对具有不同数据分布的小型,中和大型数据集的CTGAN和TVAE。它使用定量和定性指标/技术进一步评估综合数据。最后,本文提出了结果,还强调了仍然需要解决的问题和缺点。
1 Department of Information Systems, Hanyang University, 222 Wangshimni-ro, Seongdong-gu, 04673 Seoul, South Korea 2 Department of Information Systems, Hanyang University, 222 Wangshimni-ro, Seongdong-gu, 04673 Seoul, South Korea 3 Department of Information Systems, Hanyang University, 222 Wangshimni-ro, Seongdong-gu, 04673 Seoul, South韩国4韩国大学,汉阳大学,222 Wangshimni-Ro,Seongg-Gu,04673韩国首尔5号,韩国5号汉扬大学,汉扬大学,222 Wangshimni-Ro,Seongdong-Gu,04673,04673 Seoul,Seoul,Seoul,韩国韩国 *韩国电子邮件:1 jmj2316@hanyang.ac.kr,2 ryu03153@hanyang.ac.kr,3 jiwongp94@hanyang.ac.kr,4hyyejinn@hanyang.ac.ac.ac.kr