详细内容或原文请订阅后点击阅览
我如何赢得“大部分AI”综合数据挑战
深入研究后处理如何增强合成数据生成如何赢得“主要是AI”合成数据挑战的帖子首先出现在数据科学方面。
来源:走向数据科学i在大部分是AI奖中,并赢得了平坦和顺序数据挑战。比赛是一次很棒的学习经历,在这篇文章中,我想对我的获胜解决方案提供一些见解。
主要是AI奖比赛
竞争的目的是生成具有与源数据集相同的统计属性的合成数据集,而无需复制数据。
比赛被分为两个独立挑战:
- 平面数据挑战:生成具有80列的100,000个记录。序列数据挑战:生成20,000个序列(组)记录。
为了衡量合成数据的质量,竞争使用了总体精度度量。该分数使用L1距离来衡量单列(单变量)(单变量)的合成和源分布之间的相似性,列对(Bivariates)和三元组(Trivariates)使用L1距离。此外,使用诸如DCR(距离最接近记录的距离)和NNDR(最近的邻居距离)之类的隐私指标来确保提交不仅仅是过于拟合或复制培训数据。
总体准确性 dcr(到最接近记录的距离) nndr(最近的邻居距离比)解决方案设计
最初,我的目标是创建一个由多种不同最先进的模型组成的合奏,并结合其生成的数据。我对不同的模型进行了很多实验,但是结果并没有像我希望的那样进步。
后处理 主要是AI SDK 过采样 0.992我对平面挑战的最终管道包括三个主要步骤: