基于能量的场景图生成学习
机构名称:
¥ 1.0

传统的场景图生成方法是使用交叉熵损失来训练的,该损失将对象和关系视为独立实体。然而,在本质上结构化的预测问题中,这种公式忽略了输出空间中的结构。在这项工作中,我们引入了一种用于生成场景图的新型基于能量的学习框架。所提出的公式可以有效地将场景图的结构合并到输出空间中。学习框架中的这种额外约束充当了归纳偏差,使模型能够从少量标签中有效地学习。我们使用所提出的基于能量的框架 1 来训练现有的最先进模型,并在 Visual Genome [ 9 ] 和 GQA [ 5 ] 基准数据集上分别获得了高达 21% 和 27% 的显着性能提升。此外,我们通过在数据稀缺的零样本和小样本设置中展示卓越性能来展示所提出框架的学习效率。

基于能量的场景图生成学习

基于能量的场景图生成学习PDF文件第1页

基于能量的场景图生成学习PDF文件第2页

基于能量的场景图生成学习PDF文件第3页

基于能量的场景图生成学习PDF文件第4页

基于能量的场景图生成学习PDF文件第5页