基于变压器的大语言模型(LLMS)在各种自然语言处理任务中都具有令人印象深刻的表现。为LLM推断为生成长含量而构成挑战,这是由于瞬态状态的巨大内存足迹(称为键值(KV)缓存),该状态以序列长度和批处理大小缩放。在本文中,我们提出了Infinigen,这是一种针对Longext Genertion量身定制的新型KV缓存管理框架,该框架协同与现代卸载基于卸载的推理系统合作。Infinigen利用了关键见解,即可以通过对当前层的最小彩排以及查询权重的一部分和后续层的关键缓存进行最小化的彩排来推测,对于计算变压器中后续注意力层至关重要的重要洞察力。这使我们只能预取基本的KV缓存条目(不提供所有内容),从而在基于卸载的LLM服务系统中减轻主机内存中的提取开销。我们对几种代表性LLMS的评估表明,与先前的KV高速缓存管理方法相比,Infinigen将基于现代卸载系统的总体性能提高了3.00倍,同时提供了更好的模型准确性。
签名人为波多黎各有限责任公司 Infinigen Renewables LLC(“Infinigen”),是多家子公司的母公司,这些子公司在波多黎各开发、拥有、运营或为可再生能源设施提供服务。Infinigen 的多家子公司将受拟议法规条款的约束。Infinigen 的子公司包括 Horizon Energy LLC,该公司在波多黎各萨利纳斯拥有并运营一座 10MW 太阳能发电设施;Oriana Energy LLC,该公司在波多黎各伊莎贝拉拥有并运营一座 50MW 太阳能发电设施;以及 YFN Yabucoa Solar, LLC,该公司正在波多黎各亚布科阿开发一座 32.1MW 太阳能发电设施。基于此背景和我们的专业知识,我们很高兴有机会提供本文讨论的评论。