深度学习(DL)培训算法利用非确定性来提高模型的准确性和训练效率。因此,多个相同的培训运行(例如,相同的培训数据,算法和网络)产生了具有不同准确性和训练时间的不同模型。除了这些算法因素外,由于并行性,优化和浮点计算,dl libraries(例如Tensorflow和Cudnn)还引入了其他方差(称为实现级别差异)。这项工作是第一个研究DL系统差异以及研究人员和实践中这种差异的认识的工作。我们在三个具有六个流行网络的数据集上进行的实验显示了相同的培训运行中的总体准确性差异。即使排除了弱模型,精度差也为10.8%。此外,仅实施级别的因素会导致相同培训运行的准确性差异高达2.9%,每类准确性差异高达52.4%,训练时间差为145.3%。所有核心库(Tensorflow,CNTK和Theano)和低级库(例如Cudnn)在所有评估版本中均显示实现级别的差异。我们的研究人员和从业人员的调查显示,有83.8%的901名参与者不知道或不确定任何实施级别差异。此外,我们的文献调查显示,最近顶级软件工程(SE),人工智能(AI)和系统会议中,只有19.5±3%的论文使用多个相同的培训运行来量化其DL AP-ap-paraches的方差。本文提高了对DL差异的认识,并指导SE研究人员执行诸如创建确定DL实现之类的挑战任务,以促进调试和提高DL软件和结果的可重复性。