在不断发展的世界中学习的障碍:对可塑性丧失的数学理解

深度学习模型在静态数据中表现出色,但由于可塑性损失 (LoP) 的现象(即未来学习能力的下降),在非静态环境中表现不佳。这项工作提出了基于梯度的学习中 LoP 的第一原理研究。基于动力系统理论,我们通过识别参数空间中捕获梯度轨迹的稳定流形来正式定义 LoP。我们的分析揭示了创建这些陷阱的两种主要机制:来自激活饱和的冻结单元和来自代表性的克隆单元流形......

来源:Apple机器学习研究

深度学习模型在静态数据中表现出色,但由于可塑性损失 (LoP) 的现象(即未来学习能力的下降),在非静态环境中表现不佳。这项工作提出了基于梯度的学习中 LoP 的第一原理研究。基于动力系统理论,我们通过识别参数空间中捕获梯度轨迹的稳定流形来正式定义 LoP。我们的分析揭示了产生这些陷阱的两种主要机制:激活饱和导致的冻结单元和表征冗余导致的克隆单元流形。我们的框架揭示了一个基本的张力:在静态设置中促进泛化的属性,例如低秩表示和简单性偏差,直接有助于持续学习场景中的 LoP。我们通过数值模拟验证我们的理论分析,并探索架构选择或有针对性的扰动作为潜在的缓解策略。