摘要 - 在大多数接触式操纵任务中,人类将随时间变化的力应用于目标对象,以补偿视觉引导的手轨迹中的不准确性。,当前的机器人学习算法主要集中在基于轨迹的政策上,而对学习力相关的技能的关注有限。为了解决这一局限性,我们引入了以力为中心的机器人学习系统Forcemimic,提供了一种自然,吸引力和无机器人的机器人示范收集系统,以及用于强大接触富含接触良好的操作的混合力 - 动作模仿学习算法。使用拟议的forcapture系统,操作员可以在5分钟内剥离西葫芦,而力量反馈近距离运行则需要13分钟以上,并且在任务完成方面挣扎。使用收集的数据,我们提议Hybridil训练一个以力为中心的模仿学习模型,该模型配备了混合力位置控制原始的原始性,以适合机器人执行过程中预测的扳手位置参数。实验表明,我们的方法使该模型能够在蔬菜剥离的接触术任务下学习更强大的策略,与基于纯粹的纯粹的模仿学习相比,成功率相对增加了54.5%。硬件,代码,数据和更多结果将在项目网站https://forcemimic.github.io上开放。
摘要:我们介绍了交互式场景探索的新颖任务,其中机器人自主探索环境并产生一个动作条件的场景图(ACSG),该图形图(ACSG)捕获了基础环境的结构。ACSG在场景中既说明了低级信息(几何和语义)以及高级信息(不同实体之间的动作条件关系)。为此,我们提出了机器人探索(RoboExp)系统,该系统结合了大型多模型(LMM)和明确的内存设计,以增强我们的系统功能。机器人的原因以及如何探索对象,通过交互过程累积新信息,并逐步构建ACSG。利用构造的ACSG,我们说明了机器人系统系统在促进涉及涉及刚性,清晰的对象,嵌套对象和可变形对象的各种真实的操纵任务方面的有效性和效率。项目页面:https://jianghanxiao.github.io/roboexp-web/
介电性手性超脸是一种新型的平面和高效的手性光学设备,显示出强圆形二分法或光学活动,在光学传感和显示中具有重要的应用潜力。然而,传统手性跨面中的两种类型的手性光学反应通常是相互依存的,因为它们对正交圆形极化组件的幅度和阶段的调节是相关的,这限制了芯Riral Meta-devices的进一步进展。在这里,我们提出了一种新的方案,用于独立设计手性跨膜的圆形二色性和光学活性,以进一步控制传输波的极化和波前。受到手性分子异构体的混合物的启发,我们使用介电异构体谐振器形成“超级单元”,而不是Terahertz带中的手性反应,而不是单个元原子,这被称为Racemic Metasurface。通过在元原子和“超级单元”之间引入两个级别的pancharatnam-berry阶段,可以在没有远场圆形二科运动的情况下进行极化旋转角度和梁的波前。我们通过模拟和实验证明了该方案的Terahertz波的强大控制能力。此外,这种具有近场手性但没有远场圆形二分法的新型设备在光学传感和其他技术中也可能具有重要价值。
摘要。在非结构化环境中执行语言条件的机器人操纵任务对于一般的智能机器人高度要求。常规的机器人操纵方法通常会学习对动作预测观察的单一表示,这忽略了人类目标组成的场景级时空动力学。在本文中,我们提出了一种动态的高斯分裂方法,名为Manigaussian多任务机器人操纵,该方法通过未来场景重建进行了场景动态。具体而言,我们首先要介绍动态的高斯脱落框架,该框架渗透了高斯嵌入空间中的半义传播,其中利用语义表示来预测最佳的机器人动作。然后,我们构建了一个高斯世界模型,以参数化我们动态的高斯脱落框架中的分布,该框架通过未来的场景重建在交互式环境中提供了信息性的范围。我们通过166个变体评估了10个RLBench任务的Manigussian,结果表明我们的框架可以比最先进的方法胜过13。平均成功率1%。
最近的作品表明,使用蒙版自动编码器(MAE)在以自我为中心数据集上进行视觉预测可以改善下游机器人技术任务的概括[40,29]。但是,这些方法仅在2D图像上预处理,而许多机器人应用程序需要3D场景的理解。在这项工作中,我们提出了3D-MVP,这是一种使用蒙版自动编码器进行3D多视图预处理的新方法。我们利用机器人视图变压器(RVT),该变压器(RVT)使用多视图变压器来理解3D场景并预测抓地力姿势动作。我们将RVT的多视图变压器拆分为视觉编码器和动作解码器,并在大规模3D数据集(例如Objaverse)上使用蒙版自动编码预处理其视觉编码器。我们在一组虚拟机器人操纵任务上评估了3D-MVP,并证明了基准的性能提高。我们还在真正的机器人平台上显示出令人鼓舞的结果,并具有最小的填充。我们的结果表明,3D感知预处理是提高样品效率和基于视觉机器人操纵策略的概括的有前途的方法。我们将发布3D-MVP的代码和预估计的模型,以促进未来的研究。
摘要 - 互动感知使机器人能够操纵环境和对象将它们带入有利于感知过程的状态。可变形物体在基于视觉的感知中的严重操纵难度和遮挡,对此构成挑战。在这项工作中,我们通过涉及活动相机和对象操纵器的设置解决了这样的问题。我们的方法基于一个顺序的决策框架,并明确考虑了耦合相机和操纵器的运动规律性和结构。我们为构建和计算一个称为动态活动视觉空间(DAVS)的子空间的方法有效地利用了运动探索中的规律性。在模拟和真实的双臂机器人设置中都验证了框架和方法的有效性。我们的结果证实了可变形对象的交互感中的主动摄像头和协调运动的必要性。
推荐系统用于提供有关各种事项的相关建议。尽管这些系统是一个经典的研究主题,但知识仍然受到有关这些系统的公众舆论的限制。公众舆论也很重要,因为已知系统会引起各种问题。为此,本文对普通公民,民间社会团体,企业以及其他对欧洲推荐系统的看法进行了定性分析。所检查的数据集是基于对最近在欧盟(EU)颁布的有关数字服务法(DSA)的咨询的答案。因此,本文不仅有助于有关调节新技术和在线平台的紧迫问题,而且还揭示了有关DSA决策的见解。根据定性结果,欧洲人通常对推荐系统及其建议的质量有负面看法。该系统被广泛认为侵犯了隐私和其他基本权利。根据许多欧洲人的说法,这些也会引起各种社会问题,包括对民主的威胁。此外,由于缺乏适当的执法,通常认为欧盟中的现有法规失败了。咨询的受访者提出了许多建议,以改善局势,但其中只有少数最终达到了DSA。
摘要 - 尽管模型预测控制(MPC)可以有效地预测系统的未来状态,因此广泛用于机器人操纵任务中,但它没有环境知觉的能力,导致在某些复杂情况下失败。为了解决这个问题,我们介绍了视觉语言模型预测性控制(VLMPC),这是一种机器人操纵框架,它利用了视觉语言模型(VLM)的强大感知能力,并将其与MPC集成。具体来说,我们提出了一个有条件的动作采样模块,该模块作为输入目标图像或语言指令,并利用VLM来采样一组候选动作序列。然后,轻质动作条件的视频预测模型旨在生成以候选动作序列为条件的一组未来框架。vlmpc通过层次成本函数在VLM的帮助下产生最佳动作序列,该函数在当前观察和目标图像之间均表达了像素级和知识级的一致性。我们证明,VLMPC在公共基准测试中的最新方法优于最先进的方法。更重要的是,我们的方法在机器人操纵的各种现实世界任务中展示了出色的表现。代码可从https://github.com/ppjmchen/vlmpc获得。
摘要 - 在这项工作中,我们介绍了Pokerrt,这是一种新颖的运动计划算法,该算法证明了戳记是一种有效的非纹章操纵技巧,以实现快速操纵对象并增加机器人可及工作空间的大小。,我们将戳戳作为一种失败恢复策略,在挑选和地位最初失败或无法实现的情况下,与拾取和位置协同使用。我们的实验证明了拟议框架在计划对象进行调查中使用戳戳操纵在整洁和混乱的环境中的效率。除了定量和定性地证明了Pokerrt对模拟和现实世界中不同方案的适应性外,我们的结果还表明,在成功率和任务时间方面,戳戳而不是推动和抓住的优势。
摘要 - 在3D中了解我们世界的动态对于机器人应用的性能和稳健性至关重要。尽管最近的进度已与视觉模型和体积渲染结合起来提供语义3D表示形式,但大型模型的推理时间既不是实时机器人操作的所需更新速度。在这项工作中,我们建议将“对象”注入基于3D高斯人的语义表示[1]。具有相同语义标签的高斯人可以一起初始化和更新,从而导致快速更新,以响应机器人和对象运动。所有必要的语义信息都是从验证的基础模型的第一步中提取的,从而规避了大型模型的推理瓶颈,但仍获取语义信息。只有三个相机视图,我们提出的表示形式可以实时捕获30 Hz的动态场景,这对于大多数操纵任务就足够了。通过基于我们的对象感知的高斯分裂来利用表示形式,我们能够求解语言条件的动态握把,为此,机器人抓取了开放词汇查询指定的动态移动对象。我们还使用该表示形式通过行为克隆来训练视觉运动策略,并表明该策略通过预审计的编码者获得了基于图像的策略的可比结果。视频https://object-aware-gaussian.github.io