Loading...
机构名称:
¥ 1.0

开放式摄取的人类对象相互作用(HOI)的构图与检测以自然语言为指导的新型HOI的问题有关,这对于不认为以人为中心的场景至关重要。然而,先前的零射HOI检测器通常使用相同水平的图形图来模拟距离的HOI,从而在包含具有较大距离的人类对象对的场景中导致次优性能。此外,这些检测器主要依赖类别名称,并概述语言可以提供的丰富上下文信息,这对于捕获通常很少见的开放词汇概念至关重要,而单独使用类别名称的词汇量不佳。在本文中,我们引入了一种新型的端到端开放词汇HOI检测框架,该框架具有有条件的多级解码和细粒度的semantic增强(CMD-SE)(CMD-SE),从而利用了视觉语言模型(VLMS)的潜力。具体来说,我们建议通过在两部分匹配过程中结合软性结合来对具有不同特征图的不同距离的人类对象对进行建模。更重要的是,通过利用大型语言模型(LLM),例如GPT模型,我们利用了他们广泛的世界知识来生成人体部分状态的描述,以进行各种相互作用。然后,我们整合了人体部分的泛化和细粒语义,以证明相互作用的识别。在两个数据集(Swig-hoi和Hico-det)上进行的实验结果表明,我们提出的方法达到了最新的方法,可以实现开放的词汇HOI检测。代码和模型可在https://github.com/ltttpku/cmd-se-版本中使用。

探索大型基础模型的开放潜力...

探索大型基础模型的开放潜力...PDF文件第1页

探索大型基础模型的开放潜力...PDF文件第2页

探索大型基础模型的开放潜力...PDF文件第3页

探索大型基础模型的开放潜力...PDF文件第4页

探索大型基础模型的开放潜力...PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥2.0
2025 年
¥3.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2020 年
¥1.0
2025 年
¥23.0
2023 年
¥1.0