人工智能中的不确定性:评估外部深度神经网络
机构名称:
¥ 1.0

随着 AI 模型越来越多地部署在关键应用中,确保模型在暴露于分布不均 (OOD) 或扰动数据等异常情况时保持一致的性能非常重要。因此,本文研究了各种深度神经网络(包括 ResNet-50、VGG16、DenseNet121、AlexNet 和 GoogleNet)在处理此类数据时的不确定性。我们的方法包括三个实验。首先,我们使用预训练模型对通过 DALL-E 生成的 OOD 图像进行分类,以评估其性能。其次,我们使用概率平均从模型的预测中构建了一个集合,以达成共识,因为它比多数或多数投票更具优势。使用平均概率、方差和熵指标量化集合的不确定性。我们的结果表明,虽然 ResNet-50 是 OOD 图像最准确的单一模型,但该模型组合的表现更佳,可以正确分类所有图像。第三,我们通过向来自 DALL-E 或真实世界捕获的新认知图像添加扰动(过滤器、旋转等)来测试模型的稳健性。选择 ResNet-50 是因为它是性能最佳的模型。虽然它可以正确分类 5 张未受干扰的图像中的 4 张,但在扰动后它对所有图像都进行了错误分类,这表明存在很大的漏洞。这些错误分类对人类观察者来说很明显,凸显了 AI 模型的局限性。使用显着性图,我们确定了模型认为对其决策很重要的图像区域。

人工智能中的不确定性:评估外部深度神经网络

人工智能中的不确定性:评估外部深度神经网络PDF文件第1页

人工智能中的不确定性:评估外部深度神经网络PDF文件第2页

人工智能中的不确定性:评估外部深度神经网络PDF文件第3页

人工智能中的不确定性:评估外部深度神经网络PDF文件第4页

人工智能中的不确定性:评估外部深度神经网络PDF文件第5页