摘要。我们对基于度量空间中数据进行测试组差异的一些最近类似方差分析的程序进行了审查,并提出了新的此类程序。我们的统计量来自经典的莱文测试,以检测分散差异。它仅使用数据点的成对距离,并且可以在数据空间中barycenters(“广义均值”)计算的情况下快速,精确地计算出来,只有通过近似值甚至不可行)很慢。它也满足渐近正态性。我们根据1向ANOVA设置中的空间点模式和图像数据讨论了各种过程的相对优点。作为应用程序,我们在矿物质漏斗过程中的数据集和马德里的局部害虫计数的数据集上执行1-和2向方差分析。关键词和短语:方差分析,图像,莱文测试,度量空间,空间点模式。
深度学习(DL)培训算法利用非确定性来提高模型的准确性和训练效率。因此,多个相同的培训运行(例如,相同的培训数据,算法和网络)产生了具有不同准确性和训练时间的不同模型。除了这些算法因素外,由于并行性,优化和浮点计算,dl libraries(例如Tensorflow和Cudnn)还引入了其他方差(称为实现级别差异)。这项工作是第一个研究DL系统差异以及研究人员和实践中这种差异的认识的工作。我们在三个具有六个流行网络的数据集上进行的实验显示了相同的培训运行中的总体准确性差异。即使排除了弱模型,精度差也为10.8%。此外,仅实施级别的因素会导致相同培训运行的准确性差异高达2.9%,每类准确性差异高达52.4%,训练时间差为145.3%。所有核心库(Tensorflow,CNTK和Theano)和低级库(例如Cudnn)在所有评估版本中均显示实现级别的差异。我们的研究人员和从业人员的调查显示,有83.8%的901名参与者不知道或不确定任何实施级别差异。此外,我们的文献调查显示,最近顶级软件工程(SE),人工智能(AI)和系统会议中,只有19.5±3%的论文使用多个相同的培训运行来量化其DL AP-ap-paraches的方差。本文提高了对DL差异的认识,并指导SE研究人员执行诸如创建确定DL实现之类的挑战任务,以促进调试和提高DL软件和结果的可重复性。
一位经济学家收集了去年生产电子计算设备的公司样本的生产率改进数据。这些公司根据过去三年的平均研发支出水平进行分类(低、中、高)。研究结果如下(生产率改进的衡量标准为 0 到 100)。假设具有通常假设的方差分析模型是合适的。