详细内容或原文请订阅后点击阅览
超越文本压缩:评估跨量表的引物
令牌设计师的设计显着影响语言模型性能,但是评估令牌质量仍然具有挑战性。尽管文本压缩已成为一种常见的内在度量,但最近的工作质疑其作为质量指标的可靠性。 We investigate whether evaluating tokenizers on smaller models (350M parameters) reliably predicts their impact at larger scales (2.7B parameters).Through experiments with established tokenizers from widely-adopted language models, we find that tokenizer choice minimally affects English tasks but yields significant, scale-consistent differences in…
来源:Apple机器学习研究令牌设计师的设计显着影响语言模型性能,但是评估令牌质量仍然具有挑战性。尽管文本压缩已成为一种常见的内在度量,但最近的工作质疑其作为质量指标的可靠性。我们调查在较小的模型(350m参数)上评估令牌是否可靠地预测其在较大尺度(2.7b参数)的影响。通过实验实验,通过已建立的dokenizers从广泛预先补充的语言模型中进行实验,我们发现,标记器选择最小的英语任务,但会产生较大的规模范围内部差异,这些范围是在机器上构成的范围差异。与文本压缩相比,与下游性能更加密切相关。我们将这些指标结合到一个评估框架中,该框架可以实现更可靠的内在令牌比较。
- †在Apple•哥本哈根大学和摇滚基金会研究单位进行的工作