智能及相关学科。我们的研究涉及语言、逻辑和认知界面上“扎根表征”介导的人类行为多模态意义建构的理论、方法和应用理解 [ 1 ]。在这里,通过将知识表示和推理与视觉计算相结合的系统神经符号机制,声明性地介导扎根推理以实现协作自主具有特殊意义。预期的功能目的涵盖各种操作需求,例如可解释的多模态常识理解、用于通信和总结的多模态生成/合成、多模态解释引导的决策支持、多模态行为适应和自主以及多模态分析可视化。为实现这些操作需求而开发的方法和工具也必须与领域无关,并且它们既能满足在线/实时操作,也能满足不同应用场景中的事后操作(例如,参考 [ 2 ] 中在线神经符号绑架应用于自动驾驶领域的案例)。
摘要。依赖一种具有单一交互模式的技术可能会使一些用户受益,但如果他们不愿意使用该模式,肯定会排除更多用户。解决方案就是在交互系统的初始设计中包含多种模式,使其更能适应更多用户的需求。包括多种模式可以迅速增加需要接收用户命令流的交互对象的数量。如果用户需要在家庭自动化环境中与多个工件交互,则尤其如此。在本文中,我们介绍了正在进行的多模式家庭自动化系统项目的总体架构。该系统依赖于一个名为 Firebase 的基于 Web 的数据库来交换用户输入并向多个工件发出命令。用户输入是使用智能手机和配备网络摄像头的计算机获取的。它们捕捉用户的触觉输入、语音短语、眼神注视以及头部姿势特征,如倾斜和面部方向。我们能够在数据库和不同的输入采集接口之间实现可靠的数据传输。作为系统原型设计的第一步,我们能够控制使用 Unity3D 软件开发的两个独立游戏界面。
多模态学习研究的核心在于有效利用多模态之间的融合表示。然而,现有的双向跨模态单向注意力只能利用从一个源到一个目标模态的模态间相互作用。在模态数量有限且交互方向固定的情况下,这确实无法释放多模态融合的全部表达能力。在本文中,提出了多路多模态变换器(MMT),通过单个块而不是多个堆叠的跨模态块同时探索每个模态的多路多模态互相关。MMT 的核心思想是多路多模态注意力,其中利用多种模态来计算多路注意张量。这自然有利于我们开发全面的多对多多模态交互路径。具体而言,多路张量由多个相互连接的模态感知核心张量组成,这些核心张量由模态内交互组成。此外,张量收缩操作用于研究不同核心张量之间的模态间依赖关系。本质上,我们基于张量的多路结构允许将 MMT 轻松扩展到与任意数量的模态相关的情况。以 MMT 为基础,进一步建立分层网络,以递归方式将低级多路多模态交互传输到高级交互。实验表明,MMT 可以实现最先进或相当的性能。
最近,ChatGPT 与 DALL-E-2 [ 1 ] 和 Codex [ 2 ] 一起引起了社会的广泛关注。因此,许多人对相关资源产生了兴趣,并试图揭开其令人印象深刻的表现背后的背景和秘密。事实上,ChatGPT 和其他生成式人工智能 (GAI) 技术属于人工智能生成内容 (AIGC) 类别,涉及通过人工智能模型创建数字内容,例如图像、音乐和自然语言。AIGC 的目标是使内容创建过程更加高效和易于访问,从而能够以更快的速度生成高质量的内容。AIGC 是通过从人类提供的指令中提取和理解意图信息,并根据其知识和意图信息生成内容来实现的。近年来,大规模模型在 AIGC 中变得越来越重要,因为它们可以提供更好的意图提取,从而改善生成结果。随着数据和模型规模的增长,模型可以学习的分布变得更加全面和更接近现实,从而产生更现实和高质量的内容。本综述从单模态交互和多模态交互两个角度全面回顾了生成模型的历史、基本组成部分以及人工智能生成模型的最新进展。从单模态的角度介绍了文本和图像的生成任务和相关模型。从多模态的角度介绍了上述模态之间的交叉应用。最后,我们讨论了人工智能生成模型中现有的开放问题和未来的挑战。
摘要。本文介绍了一种用于第一阶段和第二阶段类风湿性关节炎 (RA) 患者康复的复杂应用程序。该应用程序包含一个供医生、运动治疗师使用的模块和一个与 RA 每个阶段的症状相匹配的游戏模块。该应用程序的目的是通过数字技术和多模态交互(跳跃运动、严肃游戏和神经网络)来实现 RA 手部的康复。神经网络为患者提供支持,让他们在家中进行锻炼,以 95% 的准确率对正确的动作进行分类。在应用程序的开发过程中,在填充数据库、在与 RA 第二阶段相关的游戏中提升立方体以及神经网络的实现方面遇到了各种挑战。该应用程序已由一组学生进行了测试,结果显示在大多数情况下,精神压力、手指和手腕疲劳程度以及体力消耗都微不足道。
摘要。虽然视觉线索传统上用于视觉分析,但多模态交互技术提供了许多新的可能性。本章探讨了开发人员和用户通过非视觉感官渠道利用和表示数据以帮助他们理解和与数据交互的机会和挑战。用户能够以新的方式体验数据:复杂数据集中的变量可以通过不同的感官传达;演示文稿更适合有视力障碍的人,并且可以根据特定用户的需求进行个性化;交互可以涉及多种感官,以提供自然和透明的方法。所有这些技术使用户能够更好地理解底层信息。虽然本章的重点是非视觉沉浸式分析,但我们讨论了如何将视觉呈现与不同的模态相结合,以及混合多种感官信号(包括视觉领域)的机会。
为了简化人力资源管理并降低成本,现在越来越多的控制塔被设计为远程控制,而不是直接植入机场。这个概念被称为远程控制塔,它提供了一种“数字”工作环境,因为跑道上的视图是通过位于实际机场的摄像头远程广播的。这为研究人员和工程师提供了开发新颖交互技术的可能性。但这项技术依赖于视觉,视觉主要用于向操作员提供信息和交互,而现在视觉已经变得超负荷。在本文中,我们专注于设计和测试依赖于人类听觉和触觉的新型交互形式。更准确地说,我们的研究旨在量化基于空间声音和振动触觉反馈的多模态交互技术对改善飞机定位的贡献。应用于远程塔环境,最终目的是增强空中交通管制员的感知并提高安全性。在模拟环境中,通过涉及 22 名空中交通管制员,比较了三种不同的交互模式。实验任务是通过两种可见性条件,利用听觉和触觉定位不同空域位置的飞机。在第一种模式(仅空间声音)中,声源(例如飞机)具有相同的放大系数。在第二种模式(称为音频焦点)中,
摘要:为了提高效率,人机和人机交互必须以多模态的理念进行设计。为了允许在多种不同的设备(计算机、智能手机、平板电脑等)上使用多种交互模式,例如使用语音、触摸、注视跟踪,并集成可能的连接对象,必须在系统的不同部分之间建立有效且安全的通信方式。当使用协作机器人 (cobot) 共享同一空间并在执行任务期间非常靠近人类时,这一点就更为重要。本研究介绍了使用 MQTT 协议的协作机器人在虚拟(Webots)和现实世界(ESP 微控制器、Arduino、IOT2040)中的多模态交互领域的研究工作。我们展示了如何高效地使用 MQTT,为系统的多个实体提供通用的发布/订阅机制,以便与连接的对象(如 LED 和传送带)、机械臂(如 Ned Niryo)或移动机器人进行交互。我们将 MQTT 的使用与之前几项研究工作中使用的 Firebase 实时数据库的使用进行了比较。我们展示了协作机器人和人类如何共同完成“挑选-等待-选择-放置”任务,以及这在通信和人体工程学规则方面意味着什么,包括健康或工业问题(残疾人和远程操作)。