摘要AI生成的媒体的扩散,尤其是在艺术方面,引发了人们的兴趣创建与原始和AI生成的艺术品之间的模型。但是,了解为什么这些模型做出某些决策仍然是一个重大挑战。本文通过使用Grad-CAM来生成模型焦点区域的视觉解释,并结合大型语言模型(LLMS)来提供自然语言描述,从而增强了基于视觉变压器的分类模型的解释性。我们通过使用它们来生成用于艺术品分类的Grad-CAM可视化的文本说明,评估了三个尖端的LLM:Llava-下一个,指令Blip和Kosmos-2。通过定量和定性分析,我们发现,尽管指令blip和kosmos-2在生成的描述和视觉内容之间达到了更高的相似性得分,但llava-next提供了更具洞察力和连贯的解释,尤其是对于AI生成的艺术。这项研究证明了LLM在复杂的图像分类任务中提高AI决策的解释性的潜力,有助于弥合模型决策与人类理解之间的差距。
主要关键词