为了培训分类器,我们首先查找了一些成功的分类器实现,例如Alexnet(旧),Inception-V1,V2,V2,V3,V4,V4(Google Net),残留网络,Inception-Resnet v1,v2,v2。试图实现这些模型,我们很快意识到它们对于我们的情况来说太复杂了,因为它们大多数是为Imagenet数据集设计的,该数据集的像素维度比我们的32x32图像大得多。因此,这个想法是遵循这些方法的结构,但将其优化到CIFAR数据集。首先,我们没有设法按照状态方法来制定有效和准确的模型,因为它们的精度非常缓慢,几乎没有达到40%。实际上,我们仅使用几个卷积层,合并层,批归归式化和恢复就可以更快,更准确。也就是说,使用这种简单的方法(类似于Alexnet),我们仅在几分钟内就达到了40%左右(时期= 10)。另一方面,为了避免消失的梯度问题,并能够进一步扩展我们的网络(更深入地),我们选择实施与所研究论文中的网络型模型相比,它的不同。这个想法是在块和块残差块中施加2-2卷积层,并重复每个块3次,以将它们求和以前的结果。块后,我们应用了一个还原模块,以使用步幅= 2降低图像的大小,并增加(翻倍)特征图的数量,然后再次将其添加到块的序列中。有关视觉表示,请参见图1。请注意,由于图像的大小已经相对较小(32x32),因此在模型的茎部分进行任何形式的还原/池很难,因为它很容易导致边缘损失。因此,在茎部分(在残留块之前),我们仅在原始图像上应用1 x 1卷积以生成相同大小的特征图。在第二个残留块的末尾应用一个最大池层层,以进一步降低图像的空间尺寸,然后再应用最终完全连接的层。
主要关键词