理论结果关键词检索结果

无限及超越:工具使用解锁状态空间模型中的长度泛化

To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models

状态空间模型 (SSM) 已成为序列建模中 Transformer 的主要替代方案。它们的主要优点是通过固定大小的内存和计算复杂性的线性缩放实现长上下文和长格式生成的效率。我们通过展示一个简单的理论结果来开始这项工作,表明 SSM 无法准确解决任何“真正的长形式”发电问题(在某种意义上我们正式定义),从而削弱了它们的主要竞争优势。然而,我们表明,可以通过允许 SSM 交互式访问外部工具来缓解这一限制。事实上,我们...