有效长度领域信息情报检索---XiaoMi-AI

2024年11月19日 00:00

数据集分解：使用可变序列长度课程加快 LLM 训练

Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum

大型语言模型 (LLM) 通常在由固定长度的标记序列组成的数据集上进行训练。这些数据集是通过随机连接不同长度的文档，然后将它们分块为预定目标长度的序列 (concat-and-chunk) 来创建的。最近的注意力实现掩盖了跨文档注意力，减少了标记块的有效长度。此外，由于注意力的二次成本，对长序列的训练在计算上变得难以承受。在本研究中，我们引入了数据集分解，一种新颖的可变序列长度……

有效长度关键词检索结果

数据集分解：使用可变序列长度课程加快 LLM 训练