人机交互 (HRI) 研究需要大量考虑实验设计,以及大量时间来实践主题实验。虚拟现实 (VR) 的最新技术可以潜在地解决这些时间和精力挑战。VR 系统对 HRI 的显著优势是:1) 降低成本,因为在真实环境中不需要实验设施;2) 为测试对象提供相同的环境和具体交互条件;3) 可视化现实中无法发生的任意信息和情况,例如回放过去的经历,以及 4) 轻松访问沉浸式和自然的机器人/化身远程操作界面。虽然具有其功能的 VR 工具已经在以前的 HRI 研究中得到应用和开发,但仍然没有全面的工具或框架。特别是,与云计算集成的好处尚未得到全面考虑。因此,本研究的目的是提出一个研究平台,通过整合 VR 和云技术,全面提供 HRI 研究所需的元素。为了实现灵活且可重复使用的系统,我们开发了机器人操作系统 (ROS) 和 Unity 之间的实时桥接机制。为了确认该系统在实际 HRI 场景中的可行性,我们将所提出的系统应用于三个案例研究,包括一个名为 RoboCup@Home 的机器人比赛。通过这些案例研究,我们验证了该系统的实用性及其通过多模态 HRI 开发和评估社交智能的潜力。
摘要来自不同模式的感觉信息(例如触摸和视觉)的集成对于执行决策,学习和记忆等行为功能的生物具有至关重要的。使用电子支持的人工实施人类多感知感知对于实现有效的人类机器相互作用具有重要意义。由于它们与生物突触的结构和功能相似性,回忆录正出现为有希望的纳米版本,用于发展人工神经形态感知。回忆设备可以感觉到多维信号,包括光,压力和声音。他们的传感器计算体系结构代表了有效的多模式感知的理想平台。我们回顾了多模式回忆技术的最新进展及其在具有视觉,嗅觉,听觉和触觉信息的复杂刺激的神经形态感知中的应用。在设备级别上,还引入了操作模型和正在进行的机制。最后,我们讨论了与这一快速发展的研究领域相关的挑战和前景。
摘要:导航研究中的一个难以捉摸的目标是建立一个智能代理,该智能代理可以理解包括自然语言和IM的多模式说明,并执行有用的导航。为了实现这一目标,我们研究了一个广泛有用的导航任务,我们称之为多模式指令导航,该导航带有恶魔之旅(MINT),其中通过预先录制的演示视频提供了先验的环境。视觉语言模型(VLM)的最新进展在实现这一目标方面表现出了有希望的途径,因为它展示了感知和推理多模式输入的能力。为了解决薄荷,我们提出了移动性VLA,这是一种层次视觉语言行动(VLA)导航政策,将环境理解和长篇小说VLM的常识推理能力结合在一起,以及基于拓扑图的强大的低级导航策略。高级策略由一个长篇小说VLM组成,该VLM将演示游览视频和多模式用户指令作为输入,以在旅行视频中找到目标框架。接下来,一个低级策略使用目标框架和构造的拓扑图来在每个时间步中生成机器人动作。我们在836M 2现实世界环境中评估了移动性VLA,并表明Mobility VLA在以前未解决的多模式指令中具有很高的端到端成功率,例如“我应该在哪里返回?”拿着一个塑料箱。可以在此处找到一个展示移动性VLA的视频:youtu.be/-tof Q8 5S
心理理论(汤姆)是掩盖人民精神状态的能力,是开发具有人类社会智力的机器的必要意义。最近的机器学习模型,尤其是大型语言模型,似乎显示了汤姆·不明智的某些方面。但是,现有的Tom Bench- Marks使用单峰数据集 - 视频或文本。人类汤姆不仅仅是视频或文字理解。peo-ple可以灵活地理解他人的思想,这些思想基于从任何可用数据中提取的概念表示(例如目标,信念,计划)。为了解决这个问题,我们介绍了一种思想问题问题回答(MMTOM-QA)基准。MMTOM-QA在多模式数据和各种单模式数据上对机器在房屋环境中的活动进行多种模态数据进行评估。对于工程师多模式的tom容量,我们提出了一种新颖的方法,即双层(贝叶斯逆计划通过语言模型加速)。BIP-ALM从多模式数据中提取统一表示形式,并利用语言模型进行可扩展的贝叶斯逆计划。我们对包括GPT-4在内的人类绩效,BIP-ALM和最新模型进行了系统的比较。实验表明,大型语言模型和大型多模型仍然缺乏强大的TOM容量。BIP-ALM通过利用基于模型的Mental推断和语言模型的力量来显示出令人鼓舞的结果。1
Hua Tian, 1 , 2 , 10 , * Presha Rajbhandari, 3 , 10 Jay Tarolli, 4 Aubrianna M. Decker, 3 Taruna V. Neelakantan, 5 Tina Angerer, 6 , 7 Fereshteh Zandkarimi, 5 Helen Remotti, 8 Gilles Frache, 6 Nicholas Winograd, 9 and Brent R. Stockwell 3 , 5 , 8 , 11 , * 1环境和职业健康,匹兹堡,宾夕法尼亚州匹兹堡,15261年,美国2儿童神经科学研究所,医学院,宾夕法尼亚州匹兹堡,宾夕法尼亚州匹兹堡15224,美国3哥伦比亚大学生物科学系,纽约,纽约,纽约,纽约10027,10027卢森堡科学技术研究所,4362 Esch-Sur-Alzette,卢森堡7号药物系,乌普萨拉大学,乌普萨拉大学,751 05 UPPSALA,瑞典8病理学与细胞生物学系,哥伦比亚大学艾尔维尔大学医疗中心,纽约州哥伦比亚大学医疗中心,纽约州伊利诺伊大学,外科医生学院,纽约州,伊利诺伊斯大学。大学公园,宾夕法尼亚州16802,美国10这些作者同等贡献11个铅联系 *通信:hut17@pitt.edu(H.T.),bstockwell@columbia.edu(b.r.s.)https://doi.org/10.1016/j.devcel.2024.01.025
实时缺陷检测对于激光定向能量沉积 (L-DED) 增材制造 (AM) 至关重要。传统的现场监测方法利用单个传感器(即声学、视觉或热传感器)来捕获复杂的过程动态行为,这不足以实现高精度和稳健性的缺陷检测。本文提出了一种新颖的多模态传感器融合方法,用于实时位置相关的机器人 L-DED 过程中的缺陷检测。多模态融合源包括捕捉激光-材料相互作用声音的麦克风传感器和捕捉同轴熔池图像的可见光谱 CCD 相机。提出了一种混合卷积神经网络 (CNN) 来融合声学和视觉数据。本研究的主要创新之处在于不再需要传统的手动特征提取程序,原始熔池图像和声学信号直接由混合 CNN 模型融合,该模型无需热传感模式即可实现最高的缺陷预测准确率 (98.5%)。此外,与以前基于区域的质量预测不同,所提出的混合 CNN 可以检测到缺陷发生的开始。缺陷预测结果与现场获取的机器人工具中心点 (TCP) 数据同步并注册,从而实现局部缺陷识别。所提出的多模态传感器融合方法为现场缺陷检测提供了一种可靠的解决方案。
人机交互 (HRI) 研究需要大量考虑实验设计,以及大量时间来实践主题实验。虚拟现实 (VR) 的最新技术可以潜在地解决这些时间和精力挑战。VR 系统对 HRI 的显著优势是:1) 降低成本,因为实验设施不需要在真实环境中进行;2) 为测试对象提供相同的环境和具体交互条件;3) 可视化现实中无法发生的任意信息和情况,例如回放过去的经历,以及 4) 轻松访问沉浸式和自然的机器人/化身远程操作界面。尽管具有其功能的 VR 工具已在以前的 HRI 研究中应用和开发,但仍然没有全面的工具或框架。特别是,与云计算集成的好处尚未得到全面考虑。因此,本研究的目的是提出一个研究平台,通过集成 VR 和云技术,可以全面提供 HRI 研究所需的元素。为了实现灵活且可重复使用的系统,我们开发了机器人操作系统 (ROS) 和 Unity 之间的实时桥接机制。为了确认该系统在实际 HRI 场景中的可行性,我们将所提出的系统应用于三个案例研究,包括一个名为 RoboCup@Home 的机器人比赛。通过这些案例研究,我们验证了该系统的实用性及其通过多模态 HRI 开发和评估社交智能的潜力。
摘要:本文对多模态人机交互进行了系统回顾。本文展示了不同类型的交互技术(虚拟现实 (VR) 和增强现实、力和振动反馈设备(触觉)和跟踪)在不同领域(概念、医学、物理、人为因素/用户体验设计、交通、文化遗产和工业)中的应用。进行了系统的文献检索,最初确定了 406 篇文章。从这些文章中,我们选择了 112 篇我们认为与本文内容最相关的研究作品。从时间模式、不同领域技术类型的使用频率和聚类分析的角度对文章进行了深入分析。通过分析,我们能够回答相关问题,以寻找与多模态 HCI 相关的工作的下一步。我们研究了典型的技术类型、技术类型和频率在每个领域随时间的变化,以及考虑到相似性,论文如何按指标分组。这项分析确定 VR 和触觉是所有领域中使用最广泛的。虽然 VR 是最常用的,但触觉交互在越来越多的应用中出现,这表明未来应研究将 VR 和触觉配置在一起的应用。
摘要 简介 患有先天性心脏病 (CHD) 的儿童有执行功能 (EF) 障碍的风险。迄今为止,干预措施对患有复杂 CHD 的儿童和青少年的 EF 效果有限。因此,我们开发了一种新的多模式和个性化 EF 干预 (E-Fit)。本研究旨在测试这种称为“E-Fit”的干预措施对患有复杂 CHD 和 EF 障碍的儿童的可行性。 方法与分析 这是一项单中心、单盲、随机对照可行性研究,探索 E-Fit 干预措施。我们旨在招募 40 名 10-12 岁患有 CHD 的儿童,他们接受了婴儿体外循环手术并表现出临床相关的 EF 障碍(在任何执行功能行为评定量表问卷总结量表上的 T 分数≥60)。多模式干预是通过焦点小组和德尔菲方法开发的,涉及患有 CHD 的儿童和青少年、他们的父母和老师以及健康专业人员。干预措施由三个要素组成:使用 CogniFit Inc 2022 进行基于计算机的 EF 训练,每周在家进行三次;每周进行 EF 远程策略辅导和模拟游戏。计算机和策略训练的内容根据儿童的 EF 困难进行个性化设置。对照组遵循以前的日常习惯,每周四次完成关于他们日常活动的日记。参与者将以 1:1 的比例随机分配。可行性通过参与者和提供者对参与者对干预的依从性和接触性的评分、招募率和对计划预期效果的评估来衡量。伦理与传播 已获得当地伦理委员会对研究的批准(BASEC-Nr:2021-02413)。父母提供书面知情同意书。试验的主要成果将通过会议演示、同行评审出版物和直接向参与家庭传播。此外,这些结果将为是否进行随机对照试验以调查有效性的决定提供参考。试验注册号 NCT05198583。