感知在各种机器人应用中起着至关重要的作用。但是,现有的良好的数据集偏向自动驾驶场景,而未标记的SLAM数据集则很快过于拟合,并且通常缺乏环境和域变化。为了扩大这些领域的边界,我们介绍了一个名为MCD(Multi-campus数据集)的全面数据集,其中包含各种感应方式,高准确的地面真相以及在三个欧亚大学的欧亚大学校园内的挑战性环境。MCD包括CCS(经典的圆柱旋转)和NRE(非重复性环球)LIDAR,高质量的IMU(惯性测量单元),相机和UWB(URWB(Ultra-Wideband))传感器。更重要的是,在开创性的努力中,我们引入了29堂课的语义注释,超过59k稀疏的nre lidar扫描
摘要:我们表明,通过扩展主动推理框架,可以在目的论框架中制定目标导向的行动规划和生成。所提出的模型建立在变分递归神经网络模型上,具有三个基本特征。这些特征是:(1)可以为静态感官状态(例如要达到的目标图像)和动态过程(例如围绕物体移动)指定目标;(2)该模型不仅可以生成目标导向的行动计划,还可以通过感官观察来理解目标;(3)该模型根据从过去的感官观察推断出的当前状态的最佳估计,为给定目标生成未来的行动计划。通过在模拟移动代理以及执行对象操作的真实人形机器人上进行实验来评估所提出的模型。
摘要 — 人机交互中的手势识别是人工智能和计算机视觉领域的一个活跃研究领域。为了估计现实环境中的手势识别性能,我们收集了考虑到杂乱背景、机器人的各种姿势和运动的手势数据,然后评估机器人的性能。这涉及骨架跟踪,其中骨架数据是由通过 Microsoft Kinect 传感器获得的深度图像生成的。Kinect 捕获 3D 空间中的人体手势,并由机器人处理和复制。Arduino 控制器用于控制机器人的运动,它将来自 Kinect 传感器的关节角度输入并将其反馈给机器人电路,从而控制机器人的动作。手势识别研究的主要目标是创建一个可以识别特定人体手势并将其用于设备控制的系统。手势控制机器人将在未来节省大量的劳动力成本。这种机器人的基本优势是它具有成本效益并且不需要远程控制。
现在我们决定对机器人真空吸尘器进行逆转,下一个挑战是要获得一个模型。理想情况下,我们希望打开一个室内或类似的真空吸尘器,但我们无法将手放在不起作用的室上。所以,我们必须安顿下一个来自亚马逊的便宜版本。尽管如此,我们还是决定继续前进,因为即使该真空吸尘器没有Roomba的所有强大功能,它仍然可以瞥见任何机器人真空吸尘器的基础功能。
●4D:表现出对歧义,毅力和开放式问题工作能力的容忍度。●5A:制定适合技术辅助方法的问题定义,例如数据分析,摘要模型和算法思维,以探索和查找解决方案。●5C:将问题分解为组件部分,提取关键信息,并开发描述性模型以了解复杂的系统或促进解决问题。●6C:通过创建或使用各种数字对象(例如可视化,模型或仿真)来清晰有效地传达复杂的想法。●7C:为项目团队做出建设性的贡献,承担各种角色和责任,以有效朝着共同的目标努力。
摘要 - 植物材料对行星科学,建筑和制造业中许多机器人任务的关键兴趣。但是,颗粒材料的动力学很复杂,并且通常在计算上非常昂贵。我们提出了一组方法和一个用于快速模拟图形处理单元(GPU)的颗粒材料的系统,并表明该模拟足够快,可以通过增强学习算法进行基础培训,目前需要许多动力学样本才能实现可接受的性能。我们的方法模型使用隐式时间播放方法进行多体刚性接触的颗粒材料动力学,以及算法技术,用于在粒子对和任意形成的刚体之间和任意形状的刚体之间的有效并行碰撞检测,以及用于最小化Warp Divergence的编程技术,以最大程度地构建单层构造(构建多项)。我们在针对机器人任务的几个环境上展示了我们的仿真系统,并将模拟器作为开源工具发布。
无缝的人类机器人相互作用(HRI)需要机器人对人类的多模式输入的熟练处理,包括语音,凝视和面部表情,以准确评估人类的影响并相应地提供帮助。同时,机器人必须通过多模态输出渠道清楚地将自己的意图清楚地传达给人类,包括语音,手势和凝视。传统上,在机器人系统中实现此功能通常需要复杂的设计。在意图估计的领域中,以前的研究通常合并意图识别模块,以基于多模式输入[3,17]对人类意图进行分类。一些系统还具有用于检测人类情感状态的专用模块,对于建立社会细微差别的互动至关重要[10,16,18]。但是,这些方法的缺点在于它们耗时且昂贵的培训过程。在输出方面,许多先前的系统集成了情绪状态[8,11]模块,以控制人形输出提示,例如音调,凝视或面部表情,增强了向人类反馈的透明度和生动性。关于运动产生,提出了多种方法,包括预先建立的运动集的混合和图表[19,25],以及使用运动捕获数据[5,9,15]。值得注意的是,这涉及与特定状态相关的每种输出模式的动作手动设计。通过利用文本理解,推理和计划的能力,在短时间内提出了许多机器人应用[7,12,14,20,21,28]。例如,Zhang等人。大型语言模型(LLM)的最新进展,诸如聊天机器人,数据过程和代码生成之类的域中的表现令人印象深刻的功能正在揭示其在机器人技术领域的潜在应用。其中一个通常的例子是“ Saycan”机器人[1],它能够解释人的自然语言命令,分析环境并生成具体的可执行操作序列,以通过使用LLMS来满足人类的要求。但是,机器人和人之间的互动提示仅限于语音命令,即使没有语音输出。最近,一些研究人员还试图将这种技术应用于HRI领域。利用LLM来估计人类有多少信任机器人[30]; Yoshida等人,使用LLMS生成低级控制命令来推动人形机器人运动以进行社会表达[29],而不是用于实践援助。Baermann等人,部署了LLM不仅遵循人类的言语命令,而且还通过人类的自然语言反馈来纠正其错误[2]。然而,通信主要依赖语音相互作用,而较少关注多模式感应和表达能力。ye等。[27]驱动了一个LLM驱动的机器人系统,该系统能够与人类在VR环境中的组装任务中合作。,但是该系统仅限于处理人类语言输入并控制虚拟空间中的单臂。通常,与快速
视觉识别生态系统(例如 ImageNet、Pascal、COCO)在现代计算机视觉的发展中发挥了不可否认的作用。我们认为,在这些生态系统出现之前,交互式和具身视觉 AI 已经达到了与视觉识别类似的发展阶段。最近,各种合成环境已被引入以促进具身 AI 的研究。尽管取得了这些进展,但在模拟中训练的模型如何很好地推广到现实这个关键问题仍然基本上没有答案。为模拟到现实的具身 AI 创建一个可比的生态系统提出了许多挑战:(1)问题固有的交互性,(2)现实世界和模拟世界之间需要紧密结合,(3)复制可重复实验的物理条件的难度,(4)以及相关成本。在本文中,我们引入了 R OBO THOR 来使交互式和具身视觉 AI 的研究民主化。 R OBO THOR 提供模拟环境框架