单峰和多模式模型中的视觉表示__

单峰和多模式模型中的视觉表示

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

单峰和多模式模型中的视觉表示

¥ 1.0

热度

尽管通过视觉和语言预处理取得了令人印象深刻的进步，但尚不清楚这种联合学习范式是否可以帮助理解每种单独的方式。在这项工作中，我们通过探测广泛的任务，旨在以细微的方式评估学习代表的质量，对视觉和语言模型和视觉模型进行比较分析。有趣的是，我们的经验观察表明，视觉和语言模型在标签预测任务（例如对象和属性预测）方面更好，而仅视力模型在需要更局部化的密集预测任务下更强大。我们希望我们的研究能阐明语言在视觉学习中的作用，并作为各种训练有素的模型的经验指南。代码将在https：//github.com/lizw14/visual_probing上发布。

添加pdf代下载 VIP点击下载文件