Loading...
机构名称:
¥ 1.0

尽管通过视觉和语言预处理取得了令人印象深刻的进步,但尚不清楚这种联合学习范式是否可以帮助理解每种单独的方式。在这项工作中,我们通过探测广泛的任务,旨在以细微的方式评估学习代表的质量,对视觉和语言模型和视觉模型进行比较分析。有趣的是,我们的经验观察表明,视觉和语言模型在标签预测任务(例如对象和属性预测)方面更好,而仅视力模型在需要更局部化的密集预测任务下更强大。我们希望我们的研究能阐明语言在视觉学习中的作用,并作为各种训练有素的模型的经验指南。代码将在https://github.com/lizw14/visual_probing上发布。

单峰和多模式模型中的视觉表示

单峰和多模式模型中的视觉表示PDF文件第1页

单峰和多模式模型中的视觉表示PDF文件第2页

单峰和多模式模型中的视觉表示PDF文件第3页

单峰和多模式模型中的视觉表示PDF文件第4页

单峰和多模式模型中的视觉表示PDF文件第5页

相关文件推荐

2024 年
¥13.0
1900 年
¥12.0
2024 年
¥4.0
2020 年
¥4.0