详细内容或原文请订阅后点击阅览
零件如何组合成整体:学习图像的相对构成
对象及其部分的组成,以及对象与对象的位置关系,为表示学习提供了丰富的信息源。因此,空间感知借口任务在自监督学习中得到了积极探索。现有的工作通常从网格结构开始,其中借口任务的目标涉及预测固定网格内补丁的绝对位置索引。然而,基于网格的方法无法捕捉现实世界对象组合的流动性和连续性。我们介绍 PART,一种自我监督学习方法......
来源:Apple机器学习研究对象及其部分的组成,以及对象与对象的位置关系,为表示学习提供了丰富的信息源。因此,空间感知借口任务在自监督学习中得到了积极探索。现有的工作通常从网格结构开始,其中借口任务的目标涉及预测固定网格内补丁的绝对位置索引。然而,基于网格的方法无法捕捉现实世界对象组合的流动性和连续性。我们引入了 PART,一种自我监督的学习方法,它利用离网补丁之间的连续相对变换来克服这些限制。通过对连续空间中各部分如何相互关联进行建模,PART 可以学习图像的相对构成——一种离网结构相对定位,与绝对外观的联系较少,并且可以在部分可见性或风格变化等变化下保持连贯。在需要精确空间理解的任务中,例如对象检测和时间序列预测,PART 优于 MAE 和 DropPos 等基于网格的方法,同时在全局分类任务上保持竞争性能。通过摆脱网格限制,PART 为跨不同数据类型(从图像到脑电图信号)的通用自监督预训练开辟了新的轨迹,在医学成像、视频和音频方面具有潜力。
