饮水机闲聊,第一集。 11:RAG评估中的过度拟合

为什么为考试而记忆并不意味着你理解了该主题The post Water Cooler Small Talk, Ep. 11:RAG 评估中的过度拟合首先出现在 Towards Data Science 上。

来源:走向数据科学

是一种特殊的闲聊,通常发生在办公空间中饮水机周围。在那里,员工经常分享各种公司八卦、神话、传说、不准确的科学观点、轻率的个人轶事或彻头彻尾的谎言。一切都会发生。在我的饮水机闲聊帖子中,我讨论了我、我的朋友或我的一些熟人在他们的办公室无意中听到的奇怪且通常在科学上无效的观点,这些观点实际上让我们无言以对。

所以,这是今天帖子的饮水机观点:

我们构建了一个 RAG 应用程序,运行效果非常好。我们现在处于评估阶段,进展顺利,因为通过所有测试,我们不断发现问题并解决它们。我们的得分已经达到 97%。

现在,我希望您暂停一下,想一想这个陈述可能有什么问题。 🤔 因为从表面上看,这听起来完全合理。发现问题并解决它们听起来正是一个好的评估流程应该做的事情,不是吗?负责任,甚至。那么到底发生了什么?

这里的问题很微妙但很根本。如果您使用评估流程来识别问题,然后修复这些问题,然后对同一组测试进行重新评估,那么不幸的是,您不再真正进行评估。该评估集有一个使其非常有用的关键属性:模型以前从未见过它。每次您根据其结果进行微调,然后在同一组上重新评估时,您都会剥离更多的该属性。换句话说,评估集已经悄然成为开发过程的一部分,现在更多的是训练集。

过度拟合怎么办?

让我们退后一步,稍微绕一下 ML 基础知识。

我们这样做是因为我们的目标不是适应训练集,而是训练集代表什么。通过这种方式,我们可以创建能够很好地学习底层模式的模型,从而对新的、未见过的数据(测试集)做出准确的预测。

在我的脑海中