摘要本文探讨了人类机器人相互作用(HRI)内的交互式基础语言理解(IGLU)挑战。在此设置中,机器人解释了与其环境相关的用户命令,旨在辨别是否可以执行特定命令。如果面对歧义或不完整的数据,机器人提出了相关的澄清问题。从2022年IGLU竞争中汲取灵感,我们通过在MM-iglu中引入我们的多模式数据和自然语言描述来丰富数据集:多模式互动式的基础语言理解。利用基于BART的模型将用户的语句与环境的描述集成在一起,以及合并视觉和文本数据的尖端多模式大型语言模型,我们为域上正在进行的研究提供了宝贵的资源。此外,我们讨论了此类任务的评估方法,强调了传统的基于弦匹配的评估对此复杂的多模式挑战所施加的潜在局限性。此外,我们根据人类判断提供了评估基准,以解决此类基线模型的限制和能力。此资源在https://github.com/crux82/mm-iglu上的专用GitHub存储库中发布。
主要关键词