tic-lm：时间限制性LLM预处理 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

tic-lm：时间限制性LLM预处理

2025年4月9日 00:00 33 Comments

在Neurips 2024的终身基础模型（SCLLFM）讲习班的可伸缩持续学习中接受了本文。LARGE语言模型（LLMS）受过历史网络数据的培训不可避免地会过时。随着新数据的可用，我们调查了LLMS的评估策略和更新方法。我们引入了一个网络尺度数据集，以用于从114个常见爬网（CC）垃圾场得出的LLMS的时间预处理 - 比以前的持续语言建模基准测试的数量级。我们还设计了一般CC数据和特定域的时间分层评估……

来源:Apple机器学习研究

在Neurips 2024的终身基础模型（SCLLFM）讲习班的可伸缩持续学习中接受了本文。

大语模型（LLM）不可避免地会过时。随着新数据的可用，我们调查了LLMS的评估策略和更新方法。我们引入了一个网络尺度数据集，以用于从114个常见爬网（CC）垃圾场得出的LLMS的时间预处理 - 比以前的持续语言建模基准测试的数量级。我们还设计了一般CC数据和特定领域（Wikipedia，stackexchange和Code文档）的时间分层评估，以评估各种持续学习方法在保留过去知识的同时适应新数据的程度。我们的发现表明，在一般CC数据上，自回归的元时间间隔与固定比例重播的旧数据相结合可以实现与从头开始的重新训练的可比持有损失，同时需要较少的计算（2.6倍）。但是，合并新数据和重播旧数据之间的最佳平衡是重播至关重要的，对于避免忘记通用的Web数据而言，但在特定域上却较少。

特定开始的回归的时间间隔学习方法 2024 数量级需要训练的重播预处理自回归以前的 Neurips 持有损失时间持续学习新方法尺度数据数据集通用的 CC 重要的较少的 LLMS 评估测试的模型方法

tic-lm：时间限制性LLM预处理

其他外部链接

Tags

XiaoMi-AI