Loading...
机构名称:
¥ 3.0

在本文中,我们从三个角度回顾了有关神经网络统计理论的文献:近似,训练动力学和生成模型。在第一部分中,在非参数回归框架(以及附录B中的分类)中审查了神经网络过多风险的结果。这些结果依赖于神经网络的明确结构,从而导致过多风险的快速收敛速率。尽管如此,它们的基础分析仅适用于深度神经网络高度非凸景的全球最小化器。这激发了我们在第二部分中回顾神经网络的训练动态。具体来说,我们回顾了试图回答“通过基于梯度的方法训练的神经网络如何找到可以很好地概括在看不见数据的解决方案”的论文。”特别是,回顾了两个众所周知的范式:神经切线内核(NTK)范式和平均场(MF)范式。最后但并非最不重要的一点是,我们回顾了生成模型中的最新理论进步,包括生成对抗性网络(GAN),扩散模型和在大型语言模型(LLMS)中,从先前审查的两个perpsectives中,即近似和训练动力学。

近似,训练动力学和生成模型

近似,训练动力学和生成模型PDF文件第1页

近似,训练动力学和生成模型PDF文件第2页

近似,训练动力学和生成模型PDF文件第3页

近似,训练动力学和生成模型PDF文件第4页

近似,训练动力学和生成模型PDF文件第5页