表格数据占企业数据资产的80%以上,在各个领域至关重要。随着对隐私保护和数据共享限制的越来越关注,产生高质量的合成表格数据已经变得至关重要。最近的进步表明,大型语言模型(LLMS)可以通过利用半度信息并克服由一个热编码引起的高维数据的挑战来有效地产生现实的表格数据。但是,当前方法并未完全利用表中可用的丰富信息。为了解决这个问题,我们基于迅速的效能引入了能力(AIGT),这是一种利用元数据信息(例如表描述和模式)的新颖方法,以生成超高质量合成数据的提示。为了克服LLMS的令牌限制限制,我们提出了长令牌分区算法,使AIGT能够对任何规模的表进行建模。AIGT在20个公共数据集中的14个和两个真实行业数据集中达到了最新的性能。
主要关键词