摘要 - 自主服务机器人应能够安全地与环境进行交互。但是,由于几个因素,包括感知错误,操纵失败或意外的外部事件,执行结果并不总是预期的。虽然大多数目前的研究强调检测和分类机器人失败,但我们的研究将其重点转移到了这些失败发生之前的重点。潜在的想法是,通过预测早期的潜在失败,可以采取预防措施。为了解决这个问题,我们提出了一个基于知识蒸馏的新型失败预期框架。该系统利用视频变压器,并结合了一种传感器融合网络,旨在处理RGB,深度和光流数据。我们评估方法对失败的有效性,现实世界机器人操纵数据集。实验结果表明,我们提出的框架的F1得分为82.12%,突出了其预测机器人执行失败的能力,最高可提前一秒钟。
摘要 - 增强机器人系统独立获取新型操作技巧的能力对于从组装线到服务机器人的应用至关重要。现有方法(例如,VIP,R3M)依赖于学习操纵任务的广义表示,但忽略(i)(i)不同实施方案之间的域间隙以及(ii)在实施方案中成功的任务轨迹的稀疏 - 特定于特定的动作空间中,导致了错误的和歧义的任务表示,具有地下学习效率。我们的工作通过引入AG2Manip(操纵代理表示)来学习上述挑战,以学习新型操纵技巧。我们的方法包括两个主要创新:(i)在人体操纵视频上进行了新颖的代理 - 反应视觉表示形式,其具有掩盖性的实施方案,以及(ii)一个代理 - 敏捷的动作表示,将机器人的动力学链抽象为具有普遍的代理链中的代理链中,将其用于普遍的构成,以将对象置于核心互动之间。通过我们的实验,AG2Manip在无需进行领域特定的示范的情况下展示了各种各样的操纵任务的显着改善,证明了来自Frankakitchen,Maniskill和PartManip的24个任务中平均成功率的325%提高了325%。进一步的消融研究强调了两种表示在实现此类改进中的关键作用。
选定的候选人将获得Trinity研究博士学位奖(TRDA),这是都柏林三一学院的开创性博士学位课程,为临床科学家,神经科学家,法律专家,政策制定者以及旨在确定大脑损害的临床科学家,法律专家,旨在认识大脑型标记的临床科学家,法律专家,构成了更广泛的跨学科培训和经验。loane-boto组中的特定学生将使用分子,流式细胞仪,成像和神经性方法的组合,以研究血脑屏障的破坏如何影响脑功能,以及如何操纵这种结构以恢复。
摘要 - 在这项工作中,我们专注于机器人操纵领域中无监督的视力 - 语言映射。最近,已经为此任务提出了采用预训练的大语言和视觉模型的多种方法。但是,它们在计算上是要求的,需要仔细对产生的输出进行微调。更轻巧的替代方法是实现多模式变量自动编码器(VAE),可以提取数据的潜在特征并将其集成到联合代码中,这主要是在现有最终模型的图像图像或图像图纸上进行的。在这里,我们探讨了是否以及如何在模拟环境中使用多模式的VAE。基于获得的结果,我们提出了一种模型不变训练替代方案,该替代方法将模拟器中的模型性能提高了55%。此外,我们系统地评估了各个任务(例如对象或机器人位置可变性,干扰器数量或任务长度)所提出的挑战。因此,我们的工作也阐明了使用当前的多模式VAE的潜在益处和局限性,以根据视觉和语言对机器人运动轨迹进行无监督学习。索引术语 - 传感器融合,视觉学习,语义场景理解
摘要 - 在以人为本的环境中执行多功能移动操作任务,可以有效地将学习的任务和经验从一个机器人转移到另一个机器人或跨不同环境的能力是关键。在本文中,我们提出了一个多功能的单项和多手册移动操作框架,可促进能力和知识在不同的任务,环境和机器人之间的传递。我们的框架将基于负担的任务描述为以记忆为中心的ARMAR人形机器人机器人家族的认知结构,该架构支持分享经验和演示以进行转移学习。通过代表可承受的移动操作动作,即。例如,机器人与其环境的交互可能性,我们为在各种环境中对已知和未知对象的自动单和多手动操纵提供了一个统一的框架。我们演示了该框架在实际实验中对于多个机器人,任务和环境的适用性。这包括抓住已知和未知的对象,放置对象,双人对象抓握,启用记忆的技能转移在抽屉开放方案中,跨两个不同的人形机器人开放场景,以及从人类演示中学到的倾泻任务。接受后,代码将通过我们的项目第1页发布。
摘要 - 机器人武器应该能够学习新任务。这里的一个框架是强化学习,在该学习中,机器人具有编码任务的奖励函数,并且机器人自主学习的动作以最大程度地提高其奖励。现有的强化学习方法通常将此问题构成马尔可夫决策过程,并学习政策(或政策层次结构)以完成任务。这些政策原因是机器人臂需要采取的数百个细粒度的动作:例如,向右移动稍微移动或旋转几个度。但是我们希望机器人执行的操作任务通常可以分解为少数高级运动:例如,到达对象或转动手柄。在本文中,我们提出了一种基于通道的无模型增强学习方法。机器人现在没有学习低级策略,而是学习路点的轨迹,然后使用现有控制器在这些航路点之间进行插值。我们的关键新颖性是将基于Waypoint的设置作为一系列多臂匪徒构建:每个匪徒问题都对应于机器人运动沿线的单路点。从理论上讲,与标准框架相比,对这种重新制定的理想解决方案的遗憾界限较低。我们还引入了一个近似的后固定解决方案,该解决方案一次构建机器人的运动点。跨基准模拟和两个现实世界实验的结果表明,这种提出的方法比最先进的基线更快地学习新任务。请参阅此处:https://youtu.be/mmed-lyfq4y
摘要 - 由于计算机视觉的最新进展,视觉模仿学习在学习一小部分视觉观察中学习的单人操纵任务方面取得了令人印象深刻的进步。然而,从双人视觉演示中学习双人协调策略和复杂的对象关系,并将其推广到新颖的混乱场景中的分类对象仍然是尚未解决的挑战。在本文中,我们将以前的有关基于关键的视觉模仿学习(K-VIL)[1]的工作扩展到了双人操作任务。拟议的BI-KVIL共同提取对象和手,双人协调策略以及子符号任务代表的所谓混合主奴隶关系(HMSR)。我们的双人任务表示形式是以对象为中心的,无独立的和视点为主的,因此可以很好地归因于新颖场景中的分类对象。我们在各种现实世界中评估了我们的方法,展示了其从少数人类演示视频中学习细粒度的双人操作任务的能力。视频和源代码可从https://sites.google.com/view/bi-kvil获得。
摘要 - 计划和控制机器人手机操纵的能力受到了几个问题的挑战,包括系统的先验知识以及随着不同机器人手甚至掌握实例而变化的复杂物理学。最直接的手动操纵模型之一是逆雅各布,它可以直接从所需的内对象运动映射到所需的手动执行器控制。但是,获得没有复杂手动系统模型的没有复杂手动系统模型的这种反向雅各布人通常是impeasible。我们提出了一种使用基于粒子滤波器的估计方案自我识别的逆雅各布人来控制手工操作的方法,该方案利用了非隔离的手在自我识别运动过程中维持被动稳定的掌握的能力。此方法不需要对特定手动系统的先验知识,并且可以通过小型探索动作来学习系统的逆雅各布。我们的系统紧密近似近似雅各布,可用于成功执行一系列对象的操纵任务。通过在耶鲁大学模型上进行广泛的实验,我们表明所提出的系统可以提供准确的亚毫米级精度操纵,并且基于雅各布的逆控制器可以支持高达900Hz的实时操纵控制。
摘要 - 开放的vocabulary泛化要求机器人系统执行涉及复杂和多样化的环境和任务目标的任务。虽然视觉语言模型(VLMS)的最新进展为解决看不见的问题提供了前所未有的机会,但如何利用其新兴能力来控制物理世界中的机器人仍然是一个悬而未决的问题。在本文中,我们介绍了标记开放式摄影键关键点(MOKA),该方法采用VLMS来解决由自由形式语言描述所指定的机器人操纵任务。我们方法的核心是基于紧凑的负担能力和运动的表示,它桥接了VLM对RGB图像的预测以及机器人在物理世界中的动作。通过在Internet规模数据上提示VLM预先训练的VLM,我们的方法可以通过利用广泛来源的概念理解和常识性知识来预测能力并产生相应的动作。要以零拍打为vlm的推理,我们提出了一种视觉提示技术,可以注释图像上的标记,将关键点和路点的预测转换为一系列视觉问题,以解决VLM可行的问题。我们在自由形式的语言描述(例如工具使用,可变形的身体操纵和对象重排)指定的各种操纵任务上评估和分析了Moka的性能。
摘要 — 我们解决了以下问题:(a) 根据动作开始的几秒钟预测手臂伸展运动的轨迹;(b) 利用该预测器帮助操作员预测运动方向,从而减少操作员的认知负荷,从而促进共享控制操作任务。我们新颖的意图估计器称为 Robot Trajectron (RT),它根据机器人的近期位置、速度和加速度历史,生成机器人预期轨迹的概率表示。通过考虑手臂动力学,RT 可以比其他仅使用手臂位置的 SOTA 模型更好地捕捉操作员的意图,使其特别适合协助操作员意图易受变化的任务。我们推导出一种新颖的共享控制解决方案,将 RT 的预测能力与潜在到达目标位置的表示相结合。我们的实验证明了 RT 在意图估计和共享控制任务中的有效性。我们将在 https://gitlab.kuleuven.be/detry-lab/public/robot-trajectron 上公开提供支持我们实验的代码和数据
