对看不见的、逻辑推理和学位课程的概括

本文考虑了逻辑(布尔)函数的学习,重点关注了在未见(GOTU)设置上的泛化,这是分布外泛化的典型案例。这是因为某些推理任务(例如算术/逻辑)中数据的丰富组合性质使得代表性数据采样具有挑战性,并且在 GOTU 下成功学习为“推断”或“推理”学习者提供了第一个小插图。我们研究了由 (S)GD 训练的不同网络架构在 GOTU 下的表现,并提供了理论和实验证据……

来源:Apple机器学习研究

本文考虑了逻辑(布尔)函数的学习,重点关注在未见(GOTU)设置上的泛化,这是分布外泛化的典型案例。这是因为某些推理任务(例如算术/逻辑)中数据的丰富组合性质使得代表性数据采样具有挑战性,而在 GOTU 下成功学习为“推断”或“推理”学习者提供了第一个小插图。我们研究了 (S)GD 训练的不同网络架构在 GOTU 下的表现,并提供了理论和实验证据,证明对于稀疏函数和一类网络模型(包括 Transformers、随机特征模型和线性网络的实例),最小度插值器是在未见上学习的。更具体地说,这意味着训练数据的插值器在较高度基础元素上具有最小的傅里叶质量。这些发现有两个含义:(1)我们为布尔函数的长度泛化问题提供了解释(例如,Anil 等人,2022 年);(2)我们引入了一种称为 Degree-Curriculum 的课程学习算法,该算法通过增加支持来更有效地学习单项式。最后,我们讨论了对其他模型或非稀疏机制的扩展,其中最小度偏差可能仍然发生或消失,以及如何在不希望的情况下对其进行潜在纠正。