无限及超越:工具使用解锁状态空间模型中的长度泛化

状态空间模型 (SSM) 已成为序列建模中 Transformer 的主要替代方案。它们的主要优点是通过固定大小的内存和计算复杂性的线性缩放实现长上下文和长格式生成的效率。我们通过展示一个简单的理论结果来开始这项工作,表明 SSM 无法准确解决任何“真正的长形式”发电问题(在某种意义上我们正式定义),从而削弱了它们的主要竞争优势。然而,我们表明,可以通过允许 SSM 交互式访问外部工具来缓解这一限制。事实上,我们...

来源:Apple机器学习研究

状态空间模型 (SSM) 已成为序列建模中 Transformer 的主要替代方案。它们的主要优点是通过固定大小的内存和计算复杂性的线性缩放实现长上下文和长格式生成的效率。我们通过展示一个简单的理论结果来开始这项工作,表明 SSM 无法准确解决任何“真正的长形式”发电问题(在某种意义上我们正式定义),从而削弱了它们的主要竞争优势。然而,我们表明,可以通过允许 SSM 交互式访问外部工具来缓解这一限制。事实上,我们表明,如果选择正确的工具访问和与问题相关的训练数据,SSM 可以学习解决任何易于处理的问题并泛化到任意问题长度/复杂性(即实现长度泛化)。根据我们的理论发现,我们证明了工具增强的 SSM 在各种算术、推理和编码任务上实现了显着的长度泛化。这些发现凸显了 SSM 在基于交互式工具和代理的环境中是 Transformer 的潜在有效替代品。