改善现实世界中通用机器人操纵的概括能力长期以来一直是一个重大挑战。现有的方法通常依赖于收集大规模机器人数据,这些机器人数据是昂贵且耗时的。但是,由于数据的多样性不足,他们通常会限制其在开放域中的能力,并具有新的对象和不同的环境。在本文中,我们提出了一种新颖的范式,该范式有效地利用了由Internet规模的基础模型生成的语言分割掩码,以调节机器人操纵任务。通过将蒙版模态整合到源自视觉基础模型的语义,几何和时间相关先验中,并将其方法呈现为端到端的策略模型,我们的方法可以有效地感知的对象姿势并启用样本有效的概括性学习,包括新的对象,包括新的对象,包括新的对象,semantic intancics,Semantic类别,语义类别,和统一的背景。我们首先引入了一系列基础模型,以跨多个任务进行基础语言需求。其次,我们基于模仿学习开发了一个两流2D策略模型,该模型可以处理原始图像和对象掩码,以以局部 - 全球知觉方式预测机器人动作。在Franka Emika机器人和低成本双臂机器人上进行的广泛的现实世界实验证明了我们提出的范式和政策的有效性。可以在link1或link2中找到演示,我们的代码将在https://github.com/mcg-nju/tpm上发布。
图1:BI3D扩散器演员的概述。顶部:BI3D扩散器Actor是一个条件扩散模型,生成两个端效应器的3D轨迹。类似于[13],在每个扩散步骤I中,我们的模型将机器人未来最终效应器轨迹的噪声估计值,提出RGB-D视图O和本体感受信息c。这些令牌是通过注意,使用3D相对位置信息的上下文对语言进行的,并参与语言令牌l以融合教学信息。Our model predicts the noise of left- and right-hand 3D locations ( ϵ loc θ,l ( o , l, c l , τ i l , i ) and ϵ loc θ,r ( o , l, c r , τ i r , i ) ) and the noise of left- and right-hand 3D rotations ( ϵ rot θ,l ( o , l, c l , τ i l , i ) and ϵ rot θ,r ( o , l, c r , τi,r i)。底部:在推断期间,BI3D扩散器演员迭代地将未来双手轨迹的估计值降低。
摘要 - 在3D中了解我们世界的动态对于机器人应用的性能和稳健性至关重要。尽管最近的进度已与视觉模型和体积渲染结合起来提供语义3D表示形式,但大型模型的推理时间既不是实时机器人操作的所需更新速度。在这项工作中,我们建议将“对象”注入基于3D高斯人的语义表示[1]。具有相同语义标签的高斯人可以一起初始化和更新,从而导致快速更新,以响应机器人和对象运动。所有必要的语义信息都是从验证的基础模型的第一步中提取的,从而规避了大型模型的推理瓶颈,但仍获取语义信息。只有三个相机视图,我们提出的表示形式可以实时捕获30 Hz的动态场景,这对于大多数操纵任务就足够了。通过基于我们的对象感知的高斯分裂来利用表示形式,我们能够求解语言条件的动态握把,为此,机器人抓取了开放词汇查询指定的动态移动对象。我们还使用该表示形式通过行为克隆来训练视觉运动策略,并表明该策略通过预审计的编码者获得了基于图像的策略的可比结果。视频https://object-aware-gaussian.github.io
推荐系统用于提供有关各种事项的相关建议。尽管这些系统是一个经典的研究主题,但知识仍然受到有关这些系统的公众舆论的限制。公众舆论也很重要,因为已知系统会引起各种问题。为此,本文对普通公民,民间社会团体,企业以及其他对欧洲推荐系统的看法进行了定性分析。所检查的数据集是基于对最近在欧盟(EU)颁布的有关数字服务法(DSA)的咨询的答案。因此,本文不仅有助于有关调节新技术和在线平台的紧迫问题,而且还揭示了有关DSA决策的见解。根据定性结果,欧洲人通常对推荐系统及其建议的质量有负面看法。该系统被广泛认为侵犯了隐私和其他基本权利。根据许多欧洲人的说法,这些也会引起各种社会问题,包括对民主的威胁。此外,由于缺乏适当的执法,通常认为欧盟中的现有法规失败了。咨询的受访者提出了许多建议,以改善局势,但其中只有少数最终达到了DSA。
摘要 - 尽管模型预测控制(MPC)可以有效地预测系统的未来状态,因此广泛用于机器人操纵任务中,但它没有环境知觉的能力,导致在某些复杂情况下失败。为了解决这个问题,我们介绍了视觉语言模型预测性控制(VLMPC),这是一种机器人操纵框架,它利用了视觉语言模型(VLM)的强大感知能力,并将其与MPC集成。具体来说,我们提出了一个有条件的动作采样模块,该模块作为输入目标图像或语言指令,并利用VLM来采样一组候选动作序列。然后,轻质动作条件的视频预测模型旨在生成以候选动作序列为条件的一组未来框架。vlmpc通过层次成本函数在VLM的帮助下产生最佳动作序列,该函数在当前观察和目标图像之间均表达了像素级和知识级的一致性。我们证明,VLMPC在公共基准测试中的最新方法优于最先进的方法。更重要的是,我们的方法在机器人操纵的各种现实世界任务中展示了出色的表现。代码可从https://github.com/ppjmchen/vlmpc获得。
摘要。在非结构化环境中执行语言条件的机器人操纵任务对于一般的智能机器人高度要求。常规的机器人操纵方法通常会学习对动作预测观察的单一表示,这忽略了人类目标组成的场景级时空动力学。在本文中,我们提出了一种动态的高斯分裂方法,名为Manigaussian多任务机器人操纵,该方法通过未来场景重建进行了场景动态。具体而言,我们首先要介绍动态的高斯脱落框架,该框架渗透了高斯嵌入空间中的半义传播,其中利用语义表示来预测最佳的机器人动作。然后,我们构建了一个高斯世界模型,以参数化我们动态的高斯脱落框架中的分布,该框架通过未来的场景重建在交互式环境中提供了信息性的范围。我们通过166个变体评估了10个RLBench任务的Manigussian,结果表明我们的框架可以比最先进的方法胜过13。平均成功率1%。
摘要 - 机器人近距离是使用户能够在距离执行任务的关键要求。大多数现有的遥控平台都依赖于2D接口。存在几种VR解决方案,但是在操作移动操作机器人时,没有一个实时的3D环境。我们提出了Ghost,这是一种使用消费者VR硬件来使人能够远程操作移动波士顿动力学现场机器人的幽灵方法。我们使用Unity在虚拟环境中从Spot的摄像机中渲染3D点云,使该人能够将机器人控制为站在其附近的“幽灵”,以及一个虚拟龙门,该虚拟龙门可以使人操纵机器人的最终效应器来执行任务。我们的方法使经验丰富的用户可以对机器人进行静脉操作,从而比最先进的点片基线执行8个灵巧的任务,例如YCB杯堆叠42%。我们还提出了结果,表明新用户非常喜欢VR,而不是平板电脑,并且在使用Ghost的操作任务中成功了两倍。
珊瑚礁是世界上最重要的生态系统之一,具有极大的生态和经济意义。但是,由于各种人为因素,包括气候变化,过度捕获和漏油污染,珊瑚礁正受到威胁。这些因素导致珊瑚礁健康和生物多样性的下降,导致迫切需要有效缓解和恢复策略。石油产物的广泛使用会导致漏油[1],已有数十年的报道[2-4]。海洋溢出是最常见的,每年大约有103吨油洒到海洋中[5]。不幸的是,海洋中的石油运输路线经常在重要的珊瑚礁附近经过,并且在珊瑚礁地区附近发生了许多重大石油泄漏[4]。自1990年代以来,由于全球对石油和天然气的需求,海上石油和天然气的生产也有所增加,这导致海洋环境和珊瑚礁发生事故的可能性显着增加[6]。
摘要:空中操纵将飞行平台的多功能性和速度与移动操作的功能能力相结合,由于需要精确的定位和控制,这引起了挑战。在传统上,研究人员依靠卸下感知系统,这些系统涉及昂贵且不切实际的室内环境。在这项工作中,我们引入了一个新颖的平台,用于自主空中操纵,该平台可易于利用板载感知系统。我们的平台可以在各种室内和室外环境中进行空中操纵,而无需依赖外部感知系统。我们的实验结果表明了平台在不同环境中自主掌握各种对象的能力。这一进步可以通过消除昂贵的跟踪解决方案的需求来显着提高空中操纵应用的可扩展性和实用性。为了加速未来的研究,我们开源3我们的ROS 2软件堆栈和自定义硬件设计,使我们的贡献可用于更广泛的研究社区。