深度学习已成为解决众多现代问题的常见解决方案,占据了当今技术和社会关注的核心。其权力的配方是基于梯度反向传播的前所未有的大维度和学习过程的结合效应[Lecun等,1998]。,由于神经元模型的简单性,该模型被分解为加权线性总和,然后是非线性激活函数,权重梯度仅由它们各自的输入而不涉及交叉参数依赖性确定。因此,就计算过程而言,梯度反向传播是由梯度链规则自动化的,仅需要对远期输入数据进行缓冲。但是,深度学习在计算上是密集的。图1显示了其典型的操作,其中向前传球在推理和训练中都使用,而后传播仅用于训练。推断,必须存储整个模型参数,并且主要计算是张量点产品。在训练中,除推理外,向前传球还需要缓冲每一层的所有输入张量。它们用于衍生计算,基于梯度的优化器和梯度反向传播所需的张量点产品。也需要基于梯度的学习原理,模型参数和所有信号都是连续数字,通常以32位浮点格式表示。它会导致大量的内存足迹。图2显示了我们的一个示例,以说明
主要关键词