研究中采用了两种数据中毒方法:分视图数据中毒和前端数据中毒。分视图数据中毒基于这样的理解:虽然训练数据集的索引无法更改,但数据集中 URL 的内容可以更改,这使得“能够对数据集索引的 Web 资源施加持续控制的对手能够毒害最终用户收集的结果数据集”。38 当对手能够在很短的时间内更改 Web 内容且无法检测到修改时,就会发生前端数据中毒。如果恶意行为者能够准确预测何时访问此类 Web 内容以获取数据集快照,则有可能实现这一点。以广泛用于 AI 数据集的 Wikipedia 为例,研究人员发现他们可以“精确到分钟”地预测捕获数据快照的时间。39 这使得他们能够在拍摄数据快照之前的几分钟内插入不准确的数据,在此期间维基百科没有足够的时间修改不准确的数据。结果,错误的数据被捕获并输入到 AI 训练数据集中。