Loading...
机构名称:
¥ 1.0

现有的人类对象互动(HOI)检测方法已经引入了零拍的学习技术来认可看不见的相互作用,但是它们在理解上下文信息和全面的重新构成方面仍然存在局限性。为了克服这些局限性,我们提出了一个新型的HOI学习框架ContexThoi,它是一种效率的上下文HOI探测器,以增强上下文的理解和零拍的推理能力。所提出的contexthoi的主要贡献是一种新颖的上下文挖掘解码器和强大的互动推理大语言模型(LLM)。上下文挖掘解码器旨在从预先训练的视觉模型中提取语言上下文信息。基于提取的上下文信息,提出的相互作用推理LLM通过利用丰富的语言知识进一步增强了零拍的推理能力。广泛的评估表明,我们所提出的框架在HICO-DET和SWIG-HOI数据集上优于现有的零射击方法,在未看到交互的情况下高达19.34%的映射。

上下文的人类对象互动从pre ...

上下文的人类对象互动从pre ...PDF文件第1页

上下文的人类对象互动从pre ...PDF文件第2页

上下文的人类对象互动从pre ...PDF文件第3页

上下文的人类对象互动从pre ...PDF文件第4页

上下文的人类对象互动从pre ...PDF文件第5页