交叉熵领域信息情报检索---XiaoMi-AI

2025年2月7日 00:00

减少大词汇量语言模型的损失

Cut Your Losses in Large-Vocabulary Language Models

随着语言模型变得越来越大，其词汇量也越来越大。这导致 LLM 在训练过程中的内存占用不成比例地转移到一个层：损失计算中的交叉熵。交叉熵会构建一个包含每对输入标记和词汇项的条目的逻辑矩阵，对于小型模型，其内存消耗量比其余 LLM 的总和高出一个数量级。我们提出了 Cut Cross-Entropy (CCE)，这是一种计算交叉熵损失的方法，无需将所有标记的逻辑实现到全局内存中。相反，CCE 仅计算逻辑……

交叉熵关键词检索结果

减少大词汇量语言模型的损失