令牌关键词检索结果

Clarifai 推理引擎在 Kimi K2.5 上实现每秒 414 个令牌

Clarifai Reasoning Engine Achieves 414 Tokens Per Second on Kimi K2.5

Clarifai 在 Kimi K2.5 上实现了每秒 414 个令牌,是首批在 Nvidia B200 GPU 上运行的万亿参数推理模型上达到 400+ TPS 的提供商之一。

Claude Pro Max 5x 配额在 1.5 小时内耗尽

Claude Pro Max 5x Quota Exhausted in 1.5 Hours

Claude Pro Max 5x 配额在 90 分钟内耗尽?以下是缓存令牌、速率限制以及 Anthropic 需要修复的问题。Claude Pro Max 5x Quota Exhausted in 1.5 Hours 的帖子首先出现在 1redDrop 上。

通过 AWS Trainium 和 vLLM 上的推测性解码加速解码繁重的 LLM 推理

Accelerating decode-heavy LLM inference with speculative decoding on AWS Trainium and vLLM

在本文中,您将了解推测性解码的工作原理以及它为何有助于降低 AWS Trainium2 上每个生成令牌的成本。

重新审视大型语言模型训练中下游指标的扩展属性

Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training

虽然大型语言模型 (LLM) 的缩放法则传统上关注预训练损失等代理指标,但预测下游任务性能被认为是不可靠的。本文提出了一个直接框架来对培训预算中的基准性能扩展进行建模,从而挑战了这一观点。我们发现,对于固定的令牌与参数比,简单的幂律可以准确地描述多个流行下游任务的日志精度的缩放行为。我们的结果表明,直接方法比之前提出的两阶段程序更好地推断......

思考未来:Transformers 的潜在前瞻训练

Thinking into the Future: Latent Lookahead Training for Transformers

本文被 ICLR 的潜在与内隐思维研讨会 - 超越 CoT 推理 2026 接受。使用下一个标记预测训练的自回归语言模型通过一次采样一个离散标记来生成文本。尽管具有很强的可扩展性,但这个目标迫使模型在每一步都做出承诺,从而阻止它探索或反思多个看似合理的延续。此外,跨代币的计算分配是统一的;每个令牌都是基于单个前向传递形成的,在困难令牌的情况下可能会限制模型的表达能力......

根据代币进行训练,根据概念进行校准:法学硕士中语义校准的出现

Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs

大型语言模型 (LLM) 通常缺乏对其输出有意义的置信度估计。虽然众所周知,基础法学硕士会表现出下一个令牌校准,但目前尚不清楚他们是否能够评估其响应超出令牌级别的实际含义的信心。我们发现,当使用某种基于采样的语义校准概念时,基础法学硕士的校准效果非常好:它们可以有意义地评估开放域问答任务的置信度,尽管没有经过明确的培训。我们的主要理论贡献建立了一种机制,解释为什么语义......

AMES:通过后期交互检索进行近似多模式企业搜索

AMES: Approximate Multi-modal Enterprise Search via Late Interaction Retrieval

我们提出了 AMES(近似多模式企业搜索),这是一种与后端无关的统一多模式后期交互检索架构。 AMES 证明,细粒度多模式后期交互检索可以部署在生产级企业搜索引擎中,而无需重新设计架构。使用多向量编码器将文本标记、图像块和视频帧嵌入到共享表示空间中,从而无需特定于模态的检索逻辑即可实现跨模态检索。 AMES 采用两阶段管道:并行令牌级 ANN 搜索,每个…