摘要。最近出现的可解释人工智能 (XAI) 领域试图以人类可以理解的术语阐明“黑箱”机器学习 (ML) 模型。随着多种解释方法的开发以及黑箱模型的不同应用,需要专家级评估来检查其有效性变得不可避免。这对于敏感领域(例如医疗应用)非常重要,因为专家的评估对于更好地了解复杂 ML 的结果的准确性以及在必要时调试模型至关重要。本研究的目的是通过实验展示如何利用医疗应用中的专家级 XAI 方法评估并将其与临床医生生成的实际解释保持一致。为此,我们从配备眼动仪的专家受试者那里收集注释,同时他们对医学图像进行分类,并设计一种方法将结果与从 XAI 方法获得的结果进行比较。我们通过多个实验证明了我们方法的有效性。