摘要 - 合成数据生成研究一直以快速的速度进行,并且时不时地设计了新颖的方法。早些时候,使用统计方法来学习真实数据的分布,然后从这些分布中采样合成数据。生成模型的最新进展导致了复杂的高维数据集的更有效的建模。此外,隐私问题也导致了较小的隐私漏洞风险较小的强大模型的发展。首先,本文对表格数据生成和评估矩阵的现有技术进行了全面调查。其次,它详细阐述了对ART合成数据生成技术的比较分析,特别是针对具有不同数据分布的小型,中和大型数据集的CTGAN和TVAE。它使用定量和定性指标/技术进一步评估综合数据。最后,本文提出了结果,还强调了仍然需要解决的问题和缺点。
1 Department of Information Systems, Hanyang University, 222 Wangshimni-ro, Seongdong-gu, 04673 Seoul, South Korea 2 Department of Information Systems, Hanyang University, 222 Wangshimni-ro, Seongdong-gu, 04673 Seoul, South Korea 3 Department of Information Systems, Hanyang University, 222 Wangshimni-ro, Seongdong-gu, 04673 Seoul, South韩国4韩国大学,汉阳大学,222 Wangshimni-Ro,Seongg-Gu,04673韩国首尔5号,韩国5号汉扬大学,汉扬大学,222 Wangshimni-Ro,Seongdong-Gu,04673,04673 Seoul,Seoul,Seoul,韩国韩国 *韩国电子邮件:1 jmj2316@hanyang.ac.kr,2 ryu03153@hanyang.ac.kr,3 jiwongp94@hanyang.ac.kr,4hyyejinn@hanyang.ac.ac.ac.kr
这个科学启动项目涉及使用机器学习(ML)方法对蒙特卡洛(MC)数据集进行分析。该数据集由实验性Hadronic Physics Group(Hadrex)与Alice实验直接合作,该实验与大型强子对撞机(LHC)直接合作。该研究专门针对多震颤的重子(例如ξ⁻,ξ⁺等)以及随后的衰减,这是一个称为“级联衰变”的过程。主要目的是使用生成机器学习模型通过其次要衰减来重建这些粒子。通过综合与实验观察相吻合的现实数据,该项目旨在优化常规的高能物理学分析并增强数据分析算法,以搜索稀有可观察物。为了应对这一挑战,采用了条件表格生成对抗网络(CTGAN)模型。结果表明,CTGAN在复制可变分布的同时有效地保留了原始数据的物理和内在相关性,从而增强了其改善高能物理学数据驱动研究的潜力。
摘要。知识图表示三倍的数据,以将连接的数据点相互链接。这种知识表示形式具有多种应用,例如查询和查找信息或进行数据推断。但是,在某些领域,例如医疗记录或智能房屋设备,这些知识图很难大规模公开可用,这是由于隐私性的。因此,有一种方法可以从原始数据中生成合成知识数据以进行大规模使用将是有益的。本文的目的是找出可以在多大程度上为知识图创建有意义的合成时间序列数据。尝试找到一种解决方案,以创建具有与原始数据相似的数据的解决方案,将测试两个现有的生成对抗网络(GAN),即CTGAN和TIMEGAN。实验的结果表明,这两个模型都设法从数据集中捕获了一些重要功能,但是两个模型都没有原始数据中的所有功能。需要进行进一步的研究,以找到满足有意义的合成知识图要求的解决方案。