Transformers 推理能力有多强?局部屏障和归纳便笺簿

Transformers 能否通过组合已建立的三段论来预测新的三段论?更一般地说,这些模型可以从头开始学习什么类型的目标?最近的研究表明,Transformers 在表达能力方面可以是图灵完备的,但这并没有解决可学习性目标。本文提出了分布局部性的概念,以捕捉常规 Transformers 何时可以有效实现弱学习,其中局部性除了标记直方图之外还测量与目标非平凡相关的所需最少标记数。如实验所示……

来源:Apple机器学习研究

Transformers 能否通过组合现有的三段论来预测新的三段论?更一般地说,这种模型可以从头开始学习哪些类型的目标?最近的研究表明,Transformers 在表达能力方面可以是图灵完备的,但这并未解决可学习性目标。本文提出了分布局部性的概念,以捕捉常规 Transformers 何时可以有效实现弱学习,其中局部性除了衡量与目标非平凡相关的 token 直方图之外,还衡量所需的最少 token 数量。如在额外假设下通过实验和理论所表明的那样,具有高局部性的分布无法被有效学习。特别是,三段论不能在长链上组合。此外,我们表明:(i)不可知的暂存器无法帮助打破局部性障碍,(ii)如果受过教育的暂存器在每一步都打破局部性,则可以提供帮助,(iii)“归纳暂存器”的概念既可以打破局部性,又可以改善分布外的泛化,例如,对于某些算术任务,可以推广到几乎两倍的输入大小。