尽管通过视觉和语言预处理取得了令人印象深刻的进步,但尚不清楚这种联合学习范式是否可以帮助理解每种单独的方式。在这项工作中,我们通过探测广泛的任务,旨在以细微的方式评估学习代表的质量,对视觉和语言模型和视觉模型进行比较分析。有趣的是,我们的经验观察表明,视觉和语言模型在标签预测任务(例如对象和属性预测)方面更好,而仅视力模型在需要更局部化的密集预测任务下更强大。我们希望我们的研究能阐明语言在视觉学习中的作用,并作为各种训练有素的模型的经验指南。代码将在https://github.com/lizw14/visual_probing上发布。