本文介绍了一种创新的推理时间方法“密钥形式”,以减轻与KV高速缓存大小相关的挑战。密钥形式利用了以下观察结果,即生成推断中大约90%的注意力重点集中在特定的令牌子集上,称为“键”代币。密钥形式仅通过使用新颖的分数函数识别这些关键令牌来保留KV缓存中的密钥令牌。这种方法降低了KV缓存大小和内存带宽的使用情况,而不会损害模型精度。我们在三个基础模型中评估了KeyFormer的性能:使用各种位置嵌入算法的GPT-J,Cerebras-GPT和MPT。我们的评估使用各种任务,重点是摘要和涉及扩展上下文的对话任务。我们表明,密钥形式可将推理潜伏期降低2.1倍,并将令牌生成吞吐量提高2.4倍,同时保持模型的准确性。