摘要本文探讨了人类机器人相互作用(HRI)内的交互式基础语言理解(IGLU)挑战。在此设置中,机器人解释了与其环境相关的用户命令,旨在辨别是否可以执行特定命令。如果面对歧义或不完整的数据,机器人提出了相关的澄清问题。从2022年IGLU竞争中汲取灵感,我们通过在MM-iglu中引入我们的多模式数据和自然语言描述来丰富数据集:多模式互动式的基础语言理解。利用基于BART的模型将用户的语句与环境的描述集成在一起,以及合并视觉和文本数据的尖端多模式大型语言模型,我们为域上正在进行的研究提供了宝贵的资源。此外,我们讨论了此类任务的评估方法,强调了传统的基于弦匹配的评估对此复杂的多模式挑战所施加的潜在局限性。此外,我们根据人类判断提供了评估基准,以解决此类基线模型的限制和能力。此资源在https://github.com/crux82/mm-iglu上的专用GitHub存储库中发布。
11。Kiseleva,Julia,Alexey Skrynnik,Artem Zholus,Shrestha Mohanty,Negar Arabzadeh,Marc-AlexandreCôté,... Edwin Zhang ... Mohammad Aliannenejadi等。“在协作环境中掌握的互动基础语言:IGLU 2022竞赛的回顾。”在2022 Neurips中204-216。PMLR,2022年。
摘要。在本研究中,我们解决了使官方情报代理在虚拟环境中执行复杂语言指令的问题。在我们的框架中,我们假设这些指令涉及复杂的语言结构和必须成功导航以实现所需结果的多个依赖性任务。为了有效地管理这些复杂性,我们提出了一个分层框架,将大型语言模型的深层语言理解与适应性的动作结合 - 强化学习剂的执行能力:语言模块(基于LLM)将语言指令转化为高级行动计划,并由预先培养的启用方法进行了指示。 Iglu,指示代理人建造结构,在手工艺品中,代理人根据语言命令在周围环境中执行任务并与周围环境中的对象进行交互。