获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
信息检索是一个不断发展且至关重要的搜索域。对高质量人类运动数据的大量需求,尤其是在在线获取中,导致人类运动研究工作的激增。先前的作品主要集中在双模式学习上,例如文本和运动任务,但是很少探索三模式学习。直觉上,额外的引入方式可以丰富模型的应用程序方案,更重要的是,对额外模式的适当选择也可以充当中介,并增强其他两个不同方式之间的对齐方式。在这项工作中,我们介绍了Lavimo(语言视频 - 动作对齐),这是一个三模式学习的新型框架,将以人为中心的视频整合为一种额外的方式,从而可以在文本和运动之间弥合差距。更重要的是,我们的方法利用了一种专门设计的注意机制来增强文本,视频和运动方式之间的一致性和协同作用。经验,我们对HumanML3D和Kit-ML数据集的结果表明,Lavimo在各种与运动相关的跨模式检索任务中实现了最先进的表现,包括文本到动作,动作到运动,视频,视频到视频,动作和动态。我们的项目网页可以在https://lavimo2023.github.io/lavimo/中找到。