详细内容或原文请订阅后点击阅览
关于非布尔函数在未见范围内泛化的最小度偏差
我们研究了随机特征 (RF) 模型和 Transformer 的域外泛化。我们首先证明,在“在看不见的 (GOTU) 上泛化”设置中,训练数据在域的某些部分完全可见,但在另一部分进行测试,对于小特征范围内的 RF 模型,收敛发生在最小程度的插值器上,就像布尔情况一样 (Abbe 等人,2023)。然后,我们考虑稀疏目标范围,并解释该范围与小特征范围的关系,但使用不同的正则化项,可以改变图片……
来源:Apple机器学习研究我们研究了随机特征 (RF) 模型和 Transformer 的域外泛化。我们首先证明,在“在看不见的 (GOTU) 上泛化”设置中,训练数据在域的某些部分完全可见,但在另一部分进行测试,对于小特征范围内的 RF 模型,收敛发生在最小程度的插值器上,就像在布尔情况下一样 (Abbe 等人,2023)。然后,我们考虑稀疏目标范围,并解释该范围与小特征范围的关系,但使用不同的正则化项,可以在非布尔情况下改变情况。我们展示了具有 q 元数据标记的稀疏状态的两种不同结果:(1)如果数据嵌入了单位根,则会像 RF 模型的布尔情况一样学习最小度插值器,(2)如果数据不是这样嵌入的,例如只是整数,那么 RF 模型和 Transformers 可能不会学习最小度插值器。这表明布尔设置及其单位根泛化是特殊情况,其中最小度插值器提供了学习如何发生的罕见特征。对于更一般的整数和实值设置,还有待充分描述更细致入微的图景。