详细内容或原文请订阅后点击阅览
长上下文与短上下文模型:长上下文模型何时获胜?
平衡上下文能力与成本、速度和数据后篇《长上下文与短上下文模型:长上下文模型何时获胜?首先出现在《走向数据科学》上。
来源:走向数据科学1.
1.1 营销主张及其跳过的问题
每一代新一代编码器模型都带有更大的上下文窗口。 BERT 和 MiniLM 给了我们 512 个代币。然后 ModernBERT 出现并将其推至 8,192 — 增加了 16 倍。这不仅仅是一个团队的决定:整个行业都在朝着同一个方向发展,编码器和嵌入模型的标准输入限制在短短几年内从 512 个令牌攀升至 8,192 个令牌(甚至可能很快就会更高)。 (图1)。
从图 1 中,您可以看到有两个相关但不同的模型系列:Encoder 和 Embedding。它们都被长语境增长趋势所重塑。简而言之,编码器(BERT、ModernBERT)是一种将文本转换为捕获含义的数字的工具。然后,您可以使用小任务头(例如分类头)进行微调,以达到您的最终目的。另一方面,嵌入模型(sentence-transformers、nomic-embed、GTE/E5)将文本转换为数字,以便您可以进行比较或搜索。它使编码器更进一步:它将整个段落压缩为单个固定长度的向量,您可以在语义搜索和 RAG 检索引擎中进行比较。
编码器模型和嵌入模型在底层的构建方式相同 - 但它们给你带来不同的东西。编码器模型为您输入中的每个标记提供单独的表示。当您进行微调时,这很有用。嵌入模型将所有这些分解为一个向量。该向量是为了比较而构建的。
为什么上下文窗口变长了?
有一个诱人的想法正在流传:“给模型更多的文本,它会理解更多”。
然而,“我们支持 8192 个代币”是一个工程规范,而不是性能保证。从技术上讲,一个模型可以接受 8192 个令牌,但仍然会产生与前 512 个令牌相同的输出。没有人真正回答这个尴尬的后续问题:这些额外的上下文实际上有多大帮助,以及对哪些类型的任务有帮助?
谁。
方法:
