在这项工作中,我们提出了使用人类机器人对话框来提高移动机器人代理的语言理解的方法。代理人解析了自然语言的潜在语义含义,并使用机器人传感器来创建红色和重型等感知概念的多模式模型。代理可用于显示导航路线,向人交付对象,并将对象从一个位置转移到另一个位置。我们使用对话框clarientation问题既可以理解命令并生成其他解析培训数据。代理人采用机会性积极学习来选择有关单词如何与对象相关的问题,从而提高其对感知概念的理解。我们在亚马逊机械土耳其人上评估了该代理。在对话中引起的数据培训后,代理减少了对话问题的数量,同时获得了更高的可用性评级。此外,我们在机器人平台上演示了代理,在完成现实世界任务时,它在频率上学习了新的感知概念。
大语言模型(LLM)和视觉语言模型(VLM)的突破性进步具有出色的认知能力和推理能力,以了解周围的开放世界,并遵循人类用户的自然语言命令[2,5]。最新的作品探索了人类用户和机器人之间的对话,以使机器人执行多步任务或澄清人类命令的歧义[10,12]。将自然语言命令的哲学应用于人体机器人协作(HRC)时,人类用户可能必须在长期任务的每个步骤中与机器人进行对话[12]。这种情况很少发生在人类的合作中,因为人类能够根据他们对任务的共同知识来跟踪伴侣方面的进步。举例来说,一个工人很少必须与同事进行协作的任务,他们多次合作,而一个友善的人很少在一起制作普通的菜时与厨师交谈。要解决人类机器人协作中的这一挑战,机器人不仅需要对环境,而且还需要有效的人类用户了解。这个
LLM 的发展与语言学有关,但通常仅涉及极少的语言学知识(Bender 等人,2021 年)。尽管在人工智能发展的新阶段取得了许多飞跃,但 NLP 和 NLU 对我们通过人类语言命令与计算机通信的能力的提高最为重要。通过向学生展示生成式人工智能工具背后的计算语言学过程及其局限性,我们打破了人们的幻想,即这些技术确实是独立学习的智能或可靠替代品。
视觉和语言导航(VLN)任务涉及使用语言命令导航移动性,并在开发自动移动性的接口中应用。在这种情况下,自然的人类交流还构成了手势和凝视等非语言提示。这些手势引导的指示已在人类机器人的互动系统中进行了探索,以有效相互作用,特别是在对象引用表达式中。ever,在户外VLN任务中应对基于手势的表达式的著名差距。为了解决这个问题,我们介绍了一个新颖的数据集,用于带有示范表达式的手势引导的户外VLN指令,并重点介绍了复杂的指令,以重新引导命令输入方式之间进行多跳的推理。此外,我们的工作还包括对收集数据的全面分析以及针对现有数据集的比较评估。
摘要。在本研究中,我们解决了使官方情报代理在虚拟环境中执行复杂语言指令的问题。在我们的框架中,我们假设这些指令涉及复杂的语言结构和必须成功导航以实现所需结果的多个依赖性任务。为了有效地管理这些复杂性,我们提出了一个分层框架,将大型语言模型的深层语言理解与适应性的动作结合 - 强化学习剂的执行能力:语言模块(基于LLM)将语言指令转化为高级行动计划,并由预先培养的启用方法进行了指示。 Iglu,指示代理人建造结构,在手工艺品中,代理人根据语言命令在周围环境中执行任务并与周围环境中的对象进行交互。
摘要 - 交互式社交机器人助手必须在复杂而拥挤的空间中提供服务,同时根据实时人类语言命令或反馈来调整其行为。在本文中,我们提出了一种新型的混合方法,称为社会机器人计划者(SRLM),该方法集成了大型语言模型(LLM)和深度强化学习(DRL),以浏览人体充满的公共空间并提供多种社会服务。srlm实时从人类中的命令中注入全球计划,并将社会信息编码为基于LLM的大型导航模型(LNM),以进行低级运动执行。此外,基于DRL的计划者旨在维持基准测试性能,该性能由大型反馈模型(LFM)与LNM混合,以解决当前文本和LLM驱动的LNM的不稳定性。最后,SRLM在广泛的实验中表现出了出色的表现。有关此工作的更多详细信息,请访问:https://sites.google.com/view/navi-srlm。
智能互动。一些研究集中于利用自然语言命令来指导机器人路径计划,采用变压器模型实现多模式数据对齐,以提高路径计划的效率(Bucker等,2022)。此外,关于机器人在环境中机器人的相互作用和发展轨迹的讨论,提出了一个强调人类生活空间内整合和服务提供的路线图,从而为路径计划和环境互动提供了新颖的见解(Cai等,20211)。此外,研究集中在机器人运动控制上,利用变压器模型促进了人形机器人的有效运动,并在路径计划和智能控制领域的潜在应用(Radosavovic等人,2024年)。人工智能在社交媒体和计算中的应用还阐明了路径规划与社交计算的交集。
摘要:开发能够执行各种操纵任务的机器人,在自然语言指示和复杂的现实世界环境的视觉观察的指导下仍然是机器人技术的重大挑战。这样的机器人代理需要了解语言命令并区分不同任务的要求。在这项工作中,我们提出σ-代理,这是一种用于多任务机器人操作的端到端模仿学习代理。σ-代理结合了共同的模仿学习(对比IL)模块,以增强视觉语言和电流未来表示。引入了用于汇总代表性语义信息的有效,有效的多视图询问变压器(MVQ形式)。σ-代理在18个rlbench任务中的不同设置下显示出对最新方法的显着改善,平均超过RVT [1]。2%和5。分别在10和100个示范培训中9%。σ-代理在5个现实世界中的单个掌握任务中也通过单个策略实现了62%的成功率。
语言是人类生活的重要方面之一。人们使用语言相互交流。交流的目的是传达和理解彼此的想法。在相互交流时,语言使用者必须具备感知交流中的话语并确定随后的行动的能力(Agus Hidayat,2016)。说话者了解如何用礼貌的语言命令某人非常重要。礼貌语言在交流中非常重要。它可以被定义为考虑到他人的感受(Holmes,1992)。礼貌语言在交流中的使用可以用多种方式定义,取决于各种因素,例如年龄、社交距离、说话者和听话者彼此的了解程度以及情境背景(Nailah,2016)。语言是每个人生活中最重要的事情之一。当然,它们中的每一个都与语言密不可分,当孩子出生在这个世界上时,他们第一次接触到一种语言,这种语言是直接从父亲或母亲那里听到的。然后,随着时间的推移和孩子的成长,他们会掌握除父母教授的语言之外的其他语言,无论是第二语言、第三语言还是外语等,这被称为语言习得,它取决于这些孩子在其环境中通过学习过程所拥有的社会环境和认知水平。(Purba,N. 等人(2020 年)。
摘要 - 本文介绍了Robodexvlm,这是一个用于机器人任务计划的创新框架,并掌握了配备灵敏手的协作操纵器的检测。以前的方法着眼于简化且有限的操纵任务,这些任务通常忽略了以长期培训方式抓住各种对象相关的复杂性。相比之下,我们提出的框架利用灵巧的手能够抓住不同形状和大小的对象,同时根据自然语言命令执行任务。所提出的方法具有以下核心组件:首先,设计了一个具有任务级恢复机制的稳健任务计划器,该机制设计了视觉语言模型(VLMS),这使系统能够解释和执行长序列任务。第二,基于机器人运动学和正式方法提出了语言引导的灵活掌握感知算法,该方法是针对带有多种物体和命令的零摄像的灵巧操作量身定制的。全面的实验结果验证了Robodexvlm在处理长层场景和执行灵巧抓握方面的有效性,适应性和鲁棒性。这些结果突出了该框架在复杂环境中运行的能力,展示了其进行开放式灵巧操作的潜力。我们的开源项目页面可以在https://henryhcliu.github.io/robodexvlm上找到。