大型语言模型正在记住旨在测试它们的数据集

,如果您依靠AI推荐观看,阅读或购买的内容,那么新的研究表明,这些系统可能是从记忆中基于记忆而不是技巧的结果:而不是学习提出有用的建议,而是回想起用于评估它们的数据集中的项目,导致高估的性能和建议的大型语言模型是在大型语言模型中记忆了这些数据集,该数据是记忆自己的第一个符合人数。

来源:Unite.AI

如果您依靠AI推荐观看,阅读或购买的内容,那么新的研究表明,某些系统可能是基于记忆而不是技巧的结果:而不是学习提出有用的建议,而是经常回想起用于评估它们的数据集中的项目,从而导致效果高估的性能和建议可能被过时或对使用者匹配。

如果您依靠AI推荐观看,阅读或购买的内容,则新的研究表明,某些系统可能会从 而不是技能:这些模型通常没有学会提出有用的建议,而是回想起用于评估它们的数据集中的项目,从而导致高估的性能和建议可能过时或与用户匹配的建议。

在机器学习中,使用测试切片来查看训练有素的模型是否学会了解决相似的问题,但与经过训练的材料不同。

测试 - 分裂

因此,如果在100,000张狗的数据集上对新的AI“狗式识别”模型进行了训练,则通常会配备80/20分的拆分 - 80,000张用于训练该模型的图片;还有20,000张图片,用作测试完成型号的材料。

可以很明显地说,如果AI的训练数据无意中包含了“秘密” 20%的测试拆分部分,则该模型将为这些测试,因为它已经知道答案(它已经看到了100%的域数据)。当然,这并不能准确地反映模型在生产环境中的新“实时数据”上的稍后表现。

电影破坏者

普通爬网 数据污染

在意大利政治上的一篇新论文中探讨了这个案例,研究人员专注于单个电影推荐数据集Movielens-1M的杰出作用,他们认为在培训期间,几种领先的AI模型对此进行了部分记忆。

movielens-1m 记忆

作者状态:

新纸 LLM会记住推荐数据集吗?关于Movielens-1M的初步研究

方法

项目