最近在操纵和运动领域取得了显着进展,但移动操作仍然是一个长期以来的挑战。与运动或静态操纵相比,移动系统必须在非结构化和动态环境中可行的多种长距离任务。尽管应用程序广泛且有趣,但在开发这些系统(例如基础和手臂之间的协调)时,有很多挑战,依靠在船上感知到感知和与环境互动,最重要的是,同时整合了所有这些部分。先前的作品使用模块化技能来解决问题,以使其动机和操纵被微不足道地捆绑在一起。这引起了多个限制
学习多个参与者之间的时空关系对于群体活动识别至关重要。不同的群体活动通常会展示视频中参与者之间的多样化互动。因此,从时空参与者演化的单一视角来建模复杂的群体活动往往很困难。为了解决这个问题,我们提出了一个独特的双路径参与者交互 (Dual-AI) 框架,它以两种互补的顺序灵活地排列空间和时间变换器,通过整合不同时空路径的优点来增强参与者关系。此外,我们在 Dual-AI 的两个交互路径之间引入了一种新颖的多尺度参与者对比损失 (MAC-Loss)。通过帧和视频级别的自监督参与者一致性,MAC-Loss 可以有效区分单个参与者表示,以减少不同参与者之间的动作混淆。因此,我们的 Dual-AI 可以通过融合不同参与者的这些判别特征来增强群体活动识别。为了评估所提出的方法,我们在广泛使用的基准上进行了大量实验,包括排球 [ 21 ]、集体活动 [ 11 ] 和 NBA 数据集 [ 49 ]。所提出的 Dual-AI 在所有这些数据集上都实现了最佳性能。值得注意的是,所提出的 Dual-AI 使用 50% 的训练数据,其性能优于许多近期使用 100% 训练数据的方法。这证实了 Dual-AI 在群体活动识别方面的泛化能力,即使在有限监督的具有挑战性的场景下也是如此。
1植物医疗系,安登国立大学,安东斯36729,大韩民国; smvahsan@gmail.com 2 Applied Biosciences,Kyungpook国立大学,Daegu 41566,大韩民国; inmamumrassel@gmail.com(m.i.-u.-h.); ashim@knu.ac.kr(a.k.d.)3植物与土壤科学系,美国德克萨斯州科技大学基因组学研究所,德克萨斯理工大学,德克萨斯州拉伯克,美国德克萨斯州79409; mrahman@bsmrau.edu.bd 4 4602,杜姆基杜姆基Patuakhali科学技术大学昆虫学系8602; mahiimam@pstu.ac.bd 5 5 Kumho Life Science Laboratory,Chonnam国立大学,Gwangju 61186,大韩民国; ncpaulcnu@gmail.com 6大加工大学大麻生物技术学院,朝鲜共和国安东斯36729 *通信:hwchoi@anu@anu.ac.kr3植物与土壤科学系,美国德克萨斯州科技大学基因组学研究所,德克萨斯理工大学,德克萨斯州拉伯克,美国德克萨斯州79409; mrahman@bsmrau.edu.bd 4 4602,杜姆基杜姆基Patuakhali科学技术大学昆虫学系8602; mahiimam@pstu.ac.bd 5 5 Kumho Life Science Laboratory,Chonnam国立大学,Gwangju 61186,大韩民国; ncpaulcnu@gmail.com 6大加工大学大麻生物技术学院,朝鲜共和国安东斯36729 *通信:hwchoi@anu@anu.ac.kr
自动驾驶汽车的未来在于以人为中心的设计和先进的AI Capabilies。未来的自动驾驶汽车不仅会跨乘客,而且还将互动并适应他们的欲望,从而使旅程变得舒适,有效且令人愉悦。在本文中,我们提出了一个新颖的框架,该框架利用大型语言模型(LLMS)来增强自动驾驶汽车的决策过程。通过整合LLMS的自然语言能力和上下文理解,专业工具使用,协同推理,并与自动驾驶汽车的各种模块进行作用,该框架旨在将LLMS的先进语言和推理能力无缝整合到自动驾驶中。拟议的框架具有革新自动驾驶汽车运行方式,提供个性化援助,持续学习和透明决策的潜力,最终为更安全,更有效的自动驾驶技术做出了贡献。
我们正在快速经历一个历史时刻:人们在一台计算机前工作,由一台小型 CRT 控制,专注于仅涉及本地信息的任务。联网计算机变得无处不在,在我们的生活中以及科学、商业和社会互动的基础设施中发挥着越来越重要的作用。为了在新千年推动人机交互的发展,我们需要更好地理解新兴的交互动态,其中焦点任务不再局限于桌面,而是延伸到一个复杂的网络信息世界和计算机介导的交互。我们认为分布式认知理论在理解人与技术之间的交互方面发挥着特殊的作用,因为它的重点一直是整个环境:我们在其中真正做什么以及我们如何协调其中的活动。分布式认知为如何思考设计和支持人机交互提供了彻底的重新定位。作为一种理论,它专门用于理解人与技术之间的交互。在本文中,我们提出分布式认知作为人机交互的新基础,勾勒出一个综合的研究框架,并使用我们早期工作中的选集来提出该框架如何为数字工作材料的设计提供新的机会。
Cruise AV的标志是其安全的硬件传感器套件,在外部可见。传感器套件不会在外部共享信息,不会通过云数据处理来跟踪或以任何身份保留第三方。这种传感器阵列使Cruise AV能够收集有关其环境的信息并告知系统的驾驶决策。在AV的后备箱内是组成系统“大脑”的计算机,并迅速综合了硬件套件收集的信息,以通过感知(了解环境),预测(评估给定环境的可能的安全路径或轨迹)和控制驾驶(驾驶驾驶员)(评估可能的安全路径或轨迹)。有关巡航自主系统如何工作的更多信息,并在此处的2022 Cruise安全报告中提供了一个安全的驾驶员。
手势在人类和人类机器人相互作用中起着关键作用。在基于任务的上下文中,诸如指向之类的神性手势对于指导关注与任务相关的实体至关重要。虽然大多数基于任务的人类和人类手机Di-Alogue专注于封闭世界领域的工作,但重新研究已开始考虑开放世界任务,在这种任务中,与任务相关的对象可能不知道与先验者相互作用。在开放世界任务中,我们认为必须对手势进行更细微的考虑,因为交互者可以使用桥接传统手势类别的手势,以便浏览其任务环境的开放世界维度。在这项工作中,我们探讨了在开放世界任务上下文中使用的手势类型及其使用频率。我们的结果表明需要重新考虑在人类和人类机器人相互作用的研究中进行手势分析的方式。
巡航起源配备了一个传感器套件,该套件由相机,雷达和雷达(Radars and LiDars)组成,在原点的外部可见。类似于螺栓,外部传感器阵列使Cruise Origin可以收集有关其环境的信息并为系统的驾驶决策提供信息。原点是一台计算机,该计算机包括系统的“大脑”。计算机及其冗余备份,旅行时乘客将看不到或无法访问。自主技术是通过迅速综合传感器套件收集的信息来通过感知(了解环境),预测和计划(评估给定环境的车辆可能的安全路径或轨迹)和控制措施(驱动器操作)来告知行为的工作。有关巡航起源系统如何工作的更多信息,并被设计为安全驱动程序,请在此处和我们的引擎盖介绍中提供的GM安全报告中提供。3,4
和一个锅的不同)或意图(例如通过刀与使用它进行切割),我们人类可以毫不费力地描绘出与日常生活中日常物体的这种互动。在这项工作中,我们的目标是构建一个可以同样生成合理的手动配置的计算系统。具体来说,我们学习了一个基于扩散的常规模型,该模型捕获了3D相互作用期间手和对象的关节分布。给定一个类别的描述,例如“握着板的手”,我们的生成模型可以合成人手的相对配置和表达(见图1个顶部)。我们解决的一个关键问题是,该模型是什么好的HOI表示。通常通过空间(签名)距离场来描述对象形状,但人的手通常是通过由发音变量控制的参数网格建模的。我们提出了一个均匀的HOI表示,而不是在生成模型中对这些不同的代表进行建模,并表明这允许学习一个共同生成手和对象的3D扩散模型。除了能够合成各种合理的手和物体形状的综合外,我们的扩散模型还可以在跨任务的辅助推理之前作为通用,而这种表示是所需的输出。例如,重建或预测相互作用的问题对于旨在向人类学习的机器人或试图帮助他们的虚拟助手来说是核心重要性。重建的视频重新投影错误)或约束(例如我们考虑了这些行沿着这些行的两个经过深入研究的任务:i)从日常交互剪辑中重建3D手对象形状,ii)鉴于任意对象网格,合成了合理的人类grasps。为了利用学到的生成模型作为推论的先验,我们注意到我们的扩散模型允许在任何手动对象配置给定的(近似)log-likelihood梯度计算(近似)log-likelihoodhoodhood。我们将其纳入优化框架中,该框架结合了先前的基于可能性的指南与特定于任务的目标(例如已知对象网格的合成)推理。虽然理解手动相互作用是一个非常流行的研究领域,但现实世界中的数据集限制了3D中这种相互作用的限制仍然很少。因此,我们汇总了7种不同的现实世界交互数据集,从而导致157个对象类别的相互作用长期收集,并在这些范围内训练共享模型。据我们所知,我们的工作代表了第一个可以共同生成手和对象的生成模型,并且我们表明它允许综合跨类别的各种手动相互作用。此外,我们还经验评估了基于视频的重建和人类掌握合成的任务的先前指导的推断,并发现我们所学的先验可以帮助完成这两个任务,甚至可以改善特定于特定于任务的状态方法。
每篇论文的演讲时间不应超过 30 分钟,这样我们才能有足够的时间进行讨论。演讲应侧重于阐述论文的动机、相关工作、工具/研究设计、研究问题、发现、局限性和未来工作。为了使您的演讲更具洞察力,请尝试以文献为中心,并告诉观众为什么首先提出这项工作,它如何增进人们对某个主题的理解,以及它与过去其他相关工作有何不同。我们还鼓励您将指定论文与您自己的研究联系起来。您应该准备一组问题(您可以自己提出问题,也可以基于其他学生在 Piazza 上发布的问题),并在演讲后与讲师一起根据这些问题共同主持课堂讨论。