在过去的几年中,我们开发了一套全面的深度神经网络 (DNN) 大规模学习理论,并使用随机梯度下降 (SGD) 进行优化。该理论建立在三个理论组成部分之上:(1) 重新思考标准(类似 PAC)分布独立的最坏情况泛化界限 - 将它们转变为独立于模型架构的问题相关典型(信息论意义上的)界限。(2) 信息平面定理:对于大规模典型学习,样本复杂度和准确度权衡仅由两个数字来描述:表示(网络中的一层)在输入模式上维护的互信息,以及每层对所需输出标签的互信息。编码器和解码器信息值之间的信息理论最优权衡由规则特定输入输出分布的信息瓶颈 (IB) 界限给出。(3) DNN 的各层通过标准 SGD 训练在高维(输入和层)中达到这个最优界限。
主要关键词