我如何赢得“大部分AI”综合数据挑战 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

我如何赢得“大部分AI”综合数据挑战

2025年8月7日 01:12 33 Comments

深入研究后处理如何增强合成数据生成如何赢得“主要是AI”合成数据挑战的帖子首先出现在数据科学方面。

来源:走向数据科学

i在大部分是AI奖中，并赢得了平坦和顺序数据挑战。比赛是一次很棒的学习经历，在这篇文章中，我想对我的获胜解决方案提供一些见解。

主要是AI奖

比赛

竞争的目的是生成具有与源数据集相同的统计属性的合成数据集，而无需复制数据。

来源：https：//www.kastlyaiprize.com/。 https://www.kastlyaiprize.com/

比赛被分为两个独立挑战：

平面数据挑战：生成具有80列的100,000个记录。序列数据挑战：生成20,000个序列（组）记录。

平面数据挑战：生成具有80列的100,000个记录。

平面数据挑战

顺序数据挑战：生成20,000个记录的序列（组）。

顺序数据挑战

为了衡量合成数据的质量，竞争使用了总体精度度量。该分数使用L1距离来衡量单列（单变量）（单变量）的合成和源分布之间的相似性，列对（Bivariates）和三元组（Trivariates）使用L1距离。此外，使用诸如DCR（距离最接近记录的距离）和NNDR（最近的邻居距离）之类的隐私指标来确保提交不仅仅是过于拟合或复制培训数据。

总体准确性 dcr（到最接近记录的距离） nndr（最近的邻居距离比）

培训数据集的样本，以进行平面挑战。作者的图像。

解决方案设计

最初，我的目标是创建一个由多种不同最先进的模型组成的合奏，并结合其生成的数据。我对不同的模型进行了很多实验，但是结果并没有像我希望的那样进步。

后处理 主要是AI SDK 过采样 0.992

我对平面挑战的最终管道包括三个主要步骤：

迭代比例拟合（IPF）选择一个超大的高质量子集。

迭代比例拟合（IPF） 贪婪的修剪 迭代改进 连贯

源分布数据集 000 距离竞争的方案设计相似性经历组成的相同的挑战迭代使用后处理先进的不同的顺序记录的质量生成大部分拟合准确性贪婪的平面最近的 AI 三元组属性的希望的数据

我如何赢得“大部分AI”综合数据挑战

比赛

解决方案设计

其他外部链接

Tags

XiaoMi-AI