无限及超越：工具使用解锁状态空间模型中的长度泛化 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

无限及超越：工具使用解锁状态空间模型中的长度泛化

2026年3月27日 00:00 33 Comments

来源:Apple机器学习研究

状态空间模型 (SSM) 已成为序列建模中 Transformer 的主要替代方案。它们的主要优点是通过固定大小的内存和计算复杂性的线性缩放实现长上下文和长格式生成的效率。我们通过展示一个简单的理论结果来开始这项工作，表明 SSM 无法准确解决任何“真正的长形式”发电问题（在某种意义上我们正式定义），从而削弱了它们的主要竞争优势。然而，我们表明，可以通过允许 SSM 交互式访问外部工具来缓解这一限制。事实上，我们表明，如果选择正确的工具访问和与问题相关的训练数据，SSM 可以学习解决任何易于处理的问题并泛化到任意问题长度/复杂性（即实现长度泛化）。根据我们的理论发现，我们证明了工具增强的 SSM 在各种算术、推理和编码任务上实现了显着的长度泛化。这些发现凸显了 SSM 在基于交互式工具和代理的环境中是 Transformer 的潜在有效替代品。

访问表明替代品处理交互式工具相关的 SSM Transformer 代理的长度实现正确的理论结果问题复杂性效率真正的增强的准确解根据替代方案简单的事实上泛化

无限及超越：工具使用解锁状态空间模型中的长度泛化

其他外部链接

Tags

XiaoMi-AI