tic-lm:时间限制性LLM预处理

在Neurips 2024的终身基础模型(SCLLFM)讲习班的可伸缩持续学习中接受了本文。LARGE语言模型(LLMS)受过历史网络数据的培训不可避免地会过时。随着新数据的可用,我们调查了LLMS的评估策略和更新方法。我们引入了一个网络尺度数据集,以用于从114个常见爬网(CC)垃圾场得出的LLMS的时间预处理 - 比以前的持续语言建模基准测试的数量级。我们还设计了一般CC数据和特定域的时间分层评估……

来源:Apple机器学习研究

在Neurips 2024的终身基础模型(SCLLFM)讲习班的可伸缩持续学习中接受了本文。

大语模型(LLM)不可避免地会过时。随着新数据的可用,我们调查了LLMS的评估策略和更新方法。我们引入了一个网络尺度数据集,以用于从114个常见爬网(CC)垃圾场得出的LLMS的时间预处理 - 比以前的持续语言建模基准测试的数量级。我们还设计了一般CC数据和特定领域(Wikipedia,stackexchange和Code文档)的时间分层评估,以评估各种持续学习方法在保留过去知识的同时适应新数据的程度。我们的发现表明,在一般CC数据上,自回归的元时间间隔与固定比例重播的旧数据相结合可以实现与从头开始的重新训练的可比持有损失,同时需要较少的计算(2.6倍)。但是,合并新数据和重播旧数据之间的最佳平衡是重播至关重要的,对于避免忘记通用的Web数据而言,但在特定域上却较少。