摘要。类别 - 不足的姿势估计(CAPE)旨在根据该类别的几个提供的示例来检测图像中任意看不见类别的关键。这是一项具有挑战性的任务,因为看不见的类别的有限数据使模型很难有效地进行大规模化。为了应对这一挑战,以前的方法通常会在一组带有广泛宣传的预定义的基本类别上训练模型。在这项工作中,我们建议利用货架文本对图像扩散模型的丰富知识,以有效地解决斗篷,而无需对精心准备的基础类别进行培训。为此,我们提出了一个提示姿势匹配(PPM)框架,该框架通过文本到图像扩散模型学习了伪提示,该伪提示与所提供的几个示例中的关键点相对应。这些学到的伪提示捕获了关键点的杂志信息,然后可以将其用于从图像中找到相同类型的关键点。我们还设计了一个类别共享的及时培训(CPT)方案,以进一步提高我们的PPM的表现。广泛的实验证明了我们方法的功效。
主要关键词