自然,人类使用多种模式来传达信息。在人类大脑中,这些模式既按顺序处理,又并行处理,以进行交流,当人类与计算机交互时,这种情况会发生变化。使计算机能够以多模式处理输入是人机交互 (HCI) 的主要研究领域。技术的进步(强大的移动设备、先进的传感器、新的输出方式等)为研究人员设计允许多模式交互的系统开辟了新的途径。多模式输入取代传统的交互方式只是时间问题。本文介绍了多模式系统领域,解释了其简要历史,描述了多模式系统相对于单模式系统的优势,并讨论了各种模式。讨论了输入建模、融合和数据收集。最后,列出了多模式系统研究中的挑战。文献分析表明,与单模式系统相比,多模式界面系统提高了任务完成率并减少了错误。多模式交互的常用输入是语音和手势。对于多模态输入,研究人员更喜欢输入模态的后期整合,因为它可以轻松更新模态和相应的词汇。
我们提出了3D空间多模式内存(M3),这是一种多模式存储系统,旨在通过视频源保留有关中型静态场景的信息,以供视觉感知。通过将3D高斯脱衣技术与基础模型集成在一起,M3构建了能够跨粒度呈现特征表示的多模式内存,其中包括广泛的知识。在我们的探索中,我们在以前的特征劈叉上确定了两个关键挑战:(1)在每个高斯原始原始原始原始的存储高维纤维中的计算限制,以及(2)蒸馏功能和基础模型之间的未对准或信息损失。为了解决这些挑战,我们提出了M3的主要场景组件和高斯记忆注意的关键组成部分,从而实现了有效的训练和推理。为了验证M3,我们对特征相似性和下游任务以及定性可视化进行了全面的定量评估,以突出显示高斯记忆注意的像素痕迹。我们的方法包括各种基础模型,包括视觉模型(VLM),感知模型以及大型多模式和语言模型(LMMS/LLMS)。此外,为了演示现实世界的适用性,我们在四足机器人的室内场景中部署了M3的功能字段。值得注意的是,我们声称M3是在3D功能蒸馏中挑战核心压缩挑战的第一项工作。
许多农村社区和小镇正在改善步行,骑自行车,公共交通和出租车服务,以为非驾驶员提供流动性,改善公共健身和健康并支持经济发展。摘要多模式计划创建了社区,可以通过步行,骑自行车和公共交通工具到处走走。这为个人和社区提供了各种直接和间接的好处。本报告探讨了为什么以及如何在农村地区和小镇上实施更多的多模式规划。当前的趋势正在增加对农村社区非自动旅行选择的需求,包括人口老龄化,贫困越来越大,健康和安全问题不断增长以及不断增长的旅游业。各种策略可以帮助农村社区改善和连接步行,骑自行车,公共交通,包括创新的设施和服务以及智能增长发展政策。本报告中描述的新计划资源可以帮助农村社区和小城镇制定综合的多模式计划和计划。
摘要 - 这项工作介绍了多模式扩散变压器(MDT),这是一种新颖的扩散策略框架,它擅长从多模式目标规范中学习多功能行为,而语言注释很少。MDT利用基于扩散的多模式变压器主链和两个自我监督的辅助目标来掌握基于多模式目标的长马操纵任务。绝大多数模仿学习方法仅从个人目标方式中学习,例如语言或目标图像。但是,现有的大规模模仿学习数据集仅以语言注释为部分标记,这禁止当前的方法从这些数据集中学习语言条件行为。MDT通过引入潜在的目标状态表示来解决这一挑战,该状态表示同时接受多模式目标指令进行培训。此状态表示将基于图像和语言的目标嵌入对齐,并编码足够的信息以预测未来状态。该表示是通过两个自制的辅助目标来训练的,从而增强了提出的变压器主链的性能。MDT在具有挑战性的Calvin和Libero基准提供的164项任务上显示出出色的表现,其中包括包含不到2%语言注释的Libero版本。此外,MDT还建立了关于加尔文操纵挑战的新记录,证明了对先前最新的最新方法的绝对性能提高了15%,该方法需要大规模预处理并包含10倍更多可学习的参数。MDT显示了其在模拟和现实世界环境中稀疏注释的数据中求解长马的能力。演示和代码可在https://intuitive-robots.github.io/mdt policy/。
人工智能 (AI) 技术在各种实际应用中用于增强人类绩效,这为应急管理带来了前所未有的机遇。然而,目前对计算机视觉和自然语言处理等 AI 技术的探索主要集中在应急响应上,对准备和缓解阶段的研究较少。应急服务的训练演习对于让响应者在现实世界中有效工作至关重要,为利用 AI 技术提供了场所。在本文中,我们展示了一种 AI 应用,以解决在实时增强此类训练演习中的教员或培训师绩效的挑战,明确目的是减少从大量多模态数据(包括视频记录和 IoT 传感器流)中提取相关知识时的认知负荷。我们介绍了一种用于多模态流分析的 AI 系统设计,以及在针对活跃暴力事件的区域训练演习中使用该系统的经验教训。
预训练技术使基础模型(如 BERT、T5、GPT)在自然语言处理 (NLP) 和涉及文本、音频和视觉内容的多模态任务中取得了显著成功。一些最新的多模态生成模型,如 DALL·E 和 Stable Diffusion,可以从文本或视频输入中合成新颖的视觉内容,从而大大增强了内容创作者的创造力和生产力。然而,多模态 AI 也面临一些挑战,例如添加新模态或处理需要超出其理解范围的信号的多样化任务。因此,多模态 AI 的一个新趋势是构建一个将现有基础模型与外部模块和工具连接起来的组合 AI 系统。这样,系统可以通过利用不同的模态和信号来执行更多样化的任务。在本文中,我们将简要概述最先进的多模态 AI 技术以及构建组合 AI 系统的方向。我们还将讨论多模态 AI 中潜在的未来研究主题。
1. 课程大纲信息 1.1. 课程名称 多模态传感器融合与导航 1.2. 大学 帕兹马尼彼得天主教大学 1.3. 学期 第一年第一学期 2. 课程详情 2.1. 课程性质 集合选修课 2.2. ECTS 学分分配 5 2.3. 教师数据 Horváth András 博士 3. 能力和学习成果 3.1. 课程目标 本课程的主要目标是概述多传感器数据融合和导航中使用的实时算法和架构。本课程的重点是多并行处理和目标跟踪。本课程介绍估计理论、静态、动态线性和非线性情况以及离散和连续系统的必要定义。揭示和解释了卡尔曼滤波器和自举滤波器等常用算法。此外,还介绍了这些算法在实际问题中的局限性和应用。本课程全面介绍了自适应算法解决方案自上而下和自下而上的系统级计算设计知识。研究现代多并行架构中数据流的拓扑和非拓扑分区。
摘要:本研究旨在调查多模态模式对远程塔台环境的贡献。使用交互式空间声音和振动触觉反馈设计了 4 种不同类型的交互和反馈,以响应 4 种典型的空中交通管制用例。实验涉及 16 名专业空中交通管制员,他们被要求在生态实验条件下管理 4 种不同的 ATC 场景。在其中两种场景中,参与者只需控制一个机场(即单远程塔台环境),而在另外两种场景中,参与者必须同时控制两个机场(即多远程塔台环境)。增强模式以平衡的方式激活或不激活。行为结果强调,当在单远程塔台环境中激活增强模式时,参与者的整体表现显着提高。这项工作表明,某些类型的增强模式可用于远程塔台环境。
随着世界人口的增长,轮椅的使用也随之增加。然而,从手动轮椅到电动轮椅的转变只标志着所用技术的差异,而对于许多有特殊需求的人来说,仍然无法使用。智能轮椅的重要性通过轮椅范式的变化得到了认可,因为它们集成了智能系统和自主行为,例如沿墙行走、障碍物检测和避让、按预先计算的轨迹自动移动或控制外部设备,因此可以接触到更多的用户。然而,功能数量越多,系统的复杂程度就越高,这对于有特殊需求的人来说是一个重要因素。在这方面,自适应多模式界面显得至关重要,因为它们可以适应每个用户的特定需求,并且由于多模式性,它们可以通过输入设备冗余以更直接的命令控制多个系统。本论文重点研究和分析与主题相关的主题的最新进展,涉及交互、界面、智能轮椅和 Intellweels 项目的分析等主题,并描述了新多模式界面的创建和开发。可以看到对技术选择的解释以及系统架构的详细概述。还可以看到实施的设备,如操纵杆或传感器,用于检测头部的运动并将其转换为输入命令以及在 30 个用户实验中使用的模拟器。在分析了用户实验的响应后,概述了系统的整体性能以及后续开发中要采取的未来改进措施。这项工作基于 Intellweels 等雄心勃勃的项目,同时也是自 2007 年以来不断发展并经过多次技术迭代的项目,旨在为智能轮椅的控制和交互模块做出贡献,力争成为该项目的众多成功案例之一。创建的多模式界面比以前的界面有所改进,因为它更具可扩展性、可配置性,并且允许输入和输出操作并行和连续。30 名志愿者对实施的解决方案的评估是实施解决方案质量有效性和完整性的良好指标。他们的反馈也有助于了解该解决方案做得不好的关键点是什么,以及应该改进哪些关键点。关键词:适应性、智能轮椅、交互、多模式界面