Loading...
机构名称:
¥ 1.0

人类视力和自然语言共有的基本特征是它们的组成性质。,尽管大型录音和语言进行了贡献,但最近的调查发现,大多数(如果不是全部)我们最先进的视觉语言模型在构图中挣扎。他们无法分辨“白人面对黑人的女孩”和“黑人面对白人的女孩”的图像。更重要的是,先前的工作表明,构图并非随着规模而产生:较大的模型尺寸或培训数据无济于事。本文开发了一种新的迭代培训算法,该算法将组成性构成。我们借鉴了数十年来确定文化传播(需要教新一代的需求)的认知科学研究,这是必要的归纳性,这激励了人类发展构图的领域。具体来说,我们将视觉语言对比度学习为视觉代理和语言代理之间的刘易斯信号游戏,并通过迭代地重置训练过程中的一个特工的权重来操作文化转移。在每次迭代之后,这种训练范式引起了“更易于学习”的表示形式,即构图语言的属性:例如我们在CC3M和CC12M上训练的模型将标准夹提高了4.7%,在糖筛基准中以4.0%的速度提高了4.0%。

迭代学习改善了大愿景中的组成性...

迭代学习改善了大愿景中的组成性...PDF文件第1页

迭代学习改善了大愿景中的组成性...PDF文件第2页

迭代学习改善了大愿景中的组成性...PDF文件第3页

迭代学习改善了大愿景中的组成性...PDF文件第4页

迭代学习改善了大愿景中的组成性...PDF文件第5页

相关文件推荐

2020 年
¥1.0
2021 年
¥2.0