长上下文与短上下文模型：长上下文模型何时获胜？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

长上下文与短上下文模型：长上下文模型何时获胜？

2026年7月3日 15:00 33 Comments

平衡上下文能力与成本、速度和数据后篇《长上下文与短上下文模型：长上下文模型何时获胜？首先出现在《走向数据科学》上。

来源:走向数据科学

1.

1.1 营销主张及其跳过的问题

每一代新一代编码器模型都带有更大的上下文窗口。 BERT 和 MiniLM 给了我们 512 个代币。然后 ModernBERT 出现并将其推至 8,192 — 增加了 16 倍。这不仅仅是一个团队的决定：整个行业都在朝着同一个方向发展，编码器和嵌入模型的标准输入限制在短短几年内从 512 个令牌攀升至 8,192 个令牌（甚至可能很快就会更高）。（图1）。

从图 1 中，您可以看到有两个相关但不同的模型系列：Encoder 和 Embedding。它们都被长语境增长趋势所重塑。简而言之，编码器（BERT、ModernBERT）是一种将文本转换为捕获含义的数字的工具。然后，您可以使用小任务头（例如分类头）进行微调，以达到您的最终目的。另一方面，嵌入模型（sentence-transformers、nomic-embed、GTE/E5）将文本转换为数字，以便您可以进行比较或搜索。它使编码器更进一步：它将整个段落压缩为单个固定长度的向量，您可以在语义搜索和 RAG 检索引擎中进行比较。

编码器模型和嵌入模型在底层的构建方式相同 - 但它们给你带来不同的东西。编码器模型为您输入中的每个标记提供单独的表示。当您进行微调时，这很有用。嵌入模型将所有这些分解为一个向量。该向量是为了比较而构建的。

为什么上下文窗口变长了？

有一个诱人的想法正在流传：“给模型更多的文本，它会理解更多”。

然而，“我们支持 8192 个代币”是一个工程规范，而不是性能保证。从技术上讲，一个模型可以接受 8192 个令牌，但仍然会产生与前 512 个令牌相同的输出。没有人真正回答这个尴尬的后续问题：这些额外的上下文实际上有多大帮助，以及对哪些类型的任务有帮助？

谁。

方法：

底层的上下文任务新一代为什么语义搜索额外的相同的实际上嵌入不同的模型编码器数字的文本输入更多的决定代币令牌向量模型的转换进行 BERT 工程规范单独的 512

长上下文与短上下文模型：长上下文模型何时获胜？

1.

1.1 营销主张及其跳过的问题

其他外部链接

Tags

XiaoMi-AI