内在学习(ICL)是一种提示,其中变压器模型以(输入,输出)示例的序列运行,并在当时进行分解。在这项工作中,我们将上下文学习形式化为一种算法学习问题,其中变压器模型在推理时间内隐含构建了假设函数。我们首先通过多任务学习的镜头探索了该抽象的统计方面:当输入提示为(1)I.I.D的顺序时,我们会对ICL进行概括。(输入,标签)对或(2)由动态系统产生的轨迹。我们的分析的症结是将多余的风险与变压器所影响的算法的稳定性有关。我们表征了当变压器/注意体系结构可证明遵守稳定性条件并提供示例验证时。对于对看不见的任务的概括,我们确定了一种归纳偏见现象,其中转移学习风险受任务复杂性和MTL任务的数量的控制。最后,我们提出了数值评估,即(1)证明了变形金刚确实可以在I.I.D的经典回归问题上实施近乎最佳的算法。和动态数据,(2)提供有关稳定性的见解,(3)验证我们的理论预测。
主要关键词