摘要。先前的工作已经通过识别动作发作后解决了驾驶员意图预测(DIP)的问题。另一方面,在需要在动作开始之前要求先发制人的情况下,早期的预期同样重要。但是,没有先前的工作旨在解决机动发作之前驾驶员行动预期问题的问题,从而限制了高级驾驶员援助系统(ADAS)的能力进行早期的机动预期。在这项工作中,我们介绍了预期的驾驶演习(ADM),这是一项新任务,可以在机动发作开始之前进行驾驶员的预期。为了启动ADM的研究,我们策划了DAAD的范围,即多视图:以密集和异构的场景和多模式为单位的观点和外部观点:Egocentric View and Caze信息。数据集在启动之前和执行操作之前都会捕获序列。在数据集收集过程中,我们还确保在交通情况,天气和照明以及车道条件下捕获广泛的多样性。接下来,我们提出了一个基于变压器体系结构的强基线,以在更长的视频长度上有效地对多个视图和方式建模。我们基于DAAD和相关数据集上的现有DIP方法。最后,我们进行了一项消融研究,显示了多种观点和方式在操纵预期中的有效性。项目页面:https://cvit.iiit.ac.in/ research/projects/cvit-projects/daad。
摘要 - 寿命终止电池电池(EOL-EVB)的有效拆卸对于绿色制造和可持续发展至关重要。自动移动机器人机器人(AMMR)进行的当前预编程的拆卸努力,以满足动态环境,复杂场景和非结构化过程中的拆卸要求。在本文中,我们提出了一个基于神经肌肌ai的电池拆卸AMMR(Beam-1)系统。它通过利用多传感器和神经谓词的组合,然后将这些信息转化为准符号符号空间来检测环境状态。实时通过LLM-Heuristic树搜索来识别动作原始的最佳顺序,从而确保了这些原语的高精度执行。此外,它还使用直观网络采用位置投机采样,并以精心设计的终端效应来实现各种螺栓类型的拆卸。重要的是,Beam-1是一种持续学习的体现的知识系统,能够像人类一样主观推理并具有直觉。大量的真实场景经验证明,它可以自主感知,决定和执行,以完成多个,多类别和复杂情况的螺栓的连续拆卸,成功率为98.78%。这项研究试图使用神经肯定AI为机器人提供真正的自主推理,计划和学习能力。Beam-1意识到电池拆卸的革命。它的框架可以轻松地移植到任何机器人系统中,以实现不同的应用程序场景,这为未来具体体现的智能机器人系统的设计和实施提供了开创性的想法。
摘要:中手势界面已在特定场景中流行起来,例如通过头戴式显示器与增强现实的交互、通过智能手机或游戏平台进行特定控制。本文探讨了使用位置感知的基于空中手势的命令三元组语法与智能空间进行交互。该语法的灵感来自人类语言,构建为具有命令结构的呼格。在“请打开灯!”这样的句子中,通过模仿其首字母/首字母缩略词(呼格,与句子的省略主语一致)的手势来调用被激活的对象。然后,几何或方向手势识别动作(命令式动词),可能包括对象特征或要与之联网的第二个对象(补语),也由首字母或首字母缩略词表示。从技术上讲,依赖于可训练的多设备手势识别层的解释器使对/三元组语法解码成为可能。识别层适用于可抓取设备(智能手机)和自由手持设备(智能手表和外部深度摄像头)以及特定编译器的加速度和位置输入信号。在 Living Lab 设施的特定部署中,语法已通过使用源自英语的词典(关于首字母和首字母缩略词)进行实例化。对 12 名用户的受试者内分析使我们能够分析手势语法在其三种设备实现(可抓取、可穿戴和无设备)中的语法接受度(就可用性、手势对物体动作的一致性和社会接受度而言)和技术偏好。参与者对学习语法的简单性及其在管理智能资源方面的潜在有效性表示了共识。在社交方面,参与者倾向于在户外活动中使用手表,在家庭和工作环境中使用手机,强调了社交背景在技术设计中的重要性。由于其效率和熟悉度,手机成为手势识别的首选。该系统可适应不同的传感技术,解决了可扩展性问题(因为它可以轻松扩展到新对象和新动作)并允许个性化交互。