摘要。在探索视觉场景时,人类的扫描路径是由他们的基本注意力过程驱动的。了解视觉扫描对各种应用至关重要。传统的扫描模型预测目光的何处和何时在不提供解释的情况下变化,在理解固定背后的基本原理方面存在差距。为了弥合这一差距,我们介绍了Gazexplain,这是一项关于视觉扫描预测和解释的新研究。这涉及注释自然语言解释,以介绍跨眼睛追踪数据集的固定,并提出具有关注语言解码器的通用模型,该模型共同预测扫描路径并生成解释。它集成了一种独特的语义对准机制,以增强固定和解释之间的一致性,以及跨数据库共同训练的通用方法。这些新颖性为可解释的人类视觉扫描预测提供了一种全面且适应性的解决方案。对各种眼睛追踪数据集进行的广泛实验证明了GAZ-在扫描Path的预测和解释中解释的有效性,从而为人类的视觉关注和认知过程提供了宝贵的见解。
主要关键词