TTFT关键词检索结果

通过加强学习的大语模型的交错推理

Interleaved Reasoning for Large Language Models via Reinforcement Learning

长期思考链(COT)显着增强了大型语言模型(LLM)的推理能力。但是,广泛的推理痕迹导致效率低下和增加时间(TTFT)的增加。我们提出了一种新颖的培训范式,该训练范式使用加固学习(RL)指导推理LLMS以交织和回答多跳的问题。我们观察到,模型本质上具有执行交织的推理的能力,可以通过RL进一步增强。我们引入了一个简单而有效的基于规则的奖励,以激励正确的中间步骤……

KV预测提高了第一个令牌

KV Prediction for Improved Time to First Token

基于变压器的语言模型推断从迅速的处理步骤开始。在此步骤中,该模型生成了第一个输出令牌并存储未来一代步骤所需的KV缓存。此及时的处理步骤在计算上可能很昂贵,当及时长度或批量尺寸上升时,在边缘设备上的数十亿个参数型号需要10秒或更高的时间。这通过将大量延迟引入模型的输出中来降低用户体验。为了减少产生验证模型的第一个输出(称为“第一个令牌”或TTFT的时间)所花费的时间,我们…