随着大语言模型(LLM)和随后的聊天模型的最新进展,出现了新的大视力 - 语言模型(LVLM)的新浪潮。此类模型除文本外还可以输入输入,并执行诸如视觉问题的任务,图像字幕,故事产生等。在这里,我们根据输入图像中人们的特征来检查此类系统中潜在的性别和种族偏见。为此,我们提出了一个新的数据集对(日常场景的并行图像)。对数据集包含一组人的AI生成图像,因此图像在背景和视觉内容方面非常相似,但沿性别(男人,女人)和种族(黑色,白色)的维度有所不同。通过使用此类图像查询LVLM,我们根据所描绘的人的感知一代或种族观察到响应的显着差异。