摘要 本文全面考察了多模态人工智能 (AI) 方法如何为在教育环境中实现通用人工智能 (AGI) 铺平道路。它仔细研究了人工智能在教育系统中的演变和整合,强调了多模态的关键作用,其中包括听觉、视觉、动觉和语言学习模式。这项研究深入探讨了 AGI 的关键方面,包括认知框架、高级知识表示、自适应学习机制、战略规划、复杂的语言处理以及多种多模态数据源的集成。它批判性地评估了 AGI 在重塑教育范式方面的变革潜力,重点是提高教学和学习效率,填补现有方法的空白,并解决教育中 AGI 的道德考虑和负责任的使用
摘要 本文探讨了人工智能生成的图像中再现的意识形态,特别关注痴呆症的表现。利用文本到图像的人工智能模型 Stable Diffusion 1.4 版,我们对 171 张以“痴呆症”为文本提示生成的图像进行了多模态批判性话语分析。我们的分析旨在通过将这些图像与现有的痴呆症多模态表现进行比较,识别和情境化生成的图像中的视觉话语。除了观察到视觉多样性的普遍缺乏(过多的老年人和浅肤色的人)之外,我们还发现这些图像倾向于通过回收现有的、围绕该综合症的突出视觉话语来描绘痴呆症,包括对疾病的生物医学关注、失落的叙述和痴呆症作为“活着的死亡”。这些视觉话语与特定的符号选择相结合,促进了观看者和痴呆症患者之间的情感距离。总的来说,这项研究强调了人工智能生成的图像强化和放大有害刻板印象和偏见的可能性。这项研究不仅展示了此类意象的意识形态意义,以及因此需要通过(多模态)批判性话语分析家对其进行批判性审视,还强调了在人工智能设计和使用过程中需要考虑道德问题,包括开发更加多样化和包容性的训练数据集。
情感计算是现代人机交互(HCI)中最重要的研究领域之一。情感计算的目标是研究和开发能够识别、解释、处理和模拟人类情感的理论、方法和系统。情感识别作为情感计算的一个分支,旨在启发机器/计算机自动分析人类情感,已受到各领域研究人员的广泛关注。人类通常通过整合感知到的面部表情、语音语调、言语内容、行为或生理特征信息来观察和理解一个人的情绪状态。为了模仿人类的情感观察方式,研究人员一直致力于通过融合两种或多种模态信息来构建多模态情感识别模型。本文从多模态数据集、数据预处理、单模态特征提取和多模态信息融合方法的角度,对近几十年来多模态情感识别进行了全面的回顾。此外,还指出并讨论了该主题面临的挑战和未来的研究方向。本评论的主要目的是总结最近出现的大量关于多模态情绪识别的研究,并为相关领域的研究人员提供潜在指导,以了解多模态情绪识别的流程和主流方法。
© 作者 2023。开放存取 本文根据知识共享署名 4.0 国际许可进行授权,允许以任何媒体或格式使用、共享、改编、分发和复制,只要您给予原作者和来源适当的信任,提供知识共享许可的链接,并指明是否做了更改。 本文中的图片或其他第三方资料包含在文章的知识共享许可中,除非资料的致谢中另有说明。 如果资料未包含在文章的知识共享许可中,且您的预期用途不被法定规定允许或超出允许用途,则需要直接从版权所有者处获得许可。 要查看此许可证的副本,请访问 http://creativecommons.org/licenses/by/4.0/ 。知识共享公共领域贡献豁免(http://creativeco mmons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非数据来源中另有说明。
摘要。目的。通过同时收集多模态生理数据和参与者反应数据,研究任务负荷对绩效的影响。还获得了对问卷的定期回复。目标是确定最能预测任务绩效的模态组合。方法。一组参与者执行了一项基于计算机的视觉搜索任务,模仿邮政编码排序。必须将五位数字分配给六个不同的不重叠数字范围之一。试验以逐步增加任务难度的块形式呈现。同时收集了参与者的反应,包括 32 个脑电图 (EEG) 数据通道、眼动追踪数据和皮肤电反应 (GSR) 数据。在实验的离散时间点使用了 NASA 任务负荷指数自我报告工具。主要结果。随着认知任务负荷的增加,低 beta 频率 EEG 波 (12.5-18 Hz) 更加突出,大多数活动发生在额叶和顶叶区域。这些伴随着更频繁的眨眼和瞳孔扩张。眨眼持续时间与任务表现密切相关。GSR 信号的相位成分与认知负荷有关,而紧张成分则表示更普遍的唤醒状态。参与者报告的主观数据 (NASA TLX) 显示挫折感和精神负荷增加。根据单因素方差分析,EEG 和 GSR 与感知工作量水平具有最可靠的相关性,并且是绩效预测最具参考价值的指标(综合起来)。意义。在与任务相关的活动中,许多模态都会发挥作用。如果适当分组,其中许多模态可以提供有关任务绩效的信息。这项研究表明,虽然 EEG 是任务绩效的良好预测指标,但 GSR 等其他模态会增加更准确预测的可能性。此外,在受控的实验室条件下,可以分离最具参考价值或最少数量的模态以在实际工作环境中进行监控。
1 爱丁堡大学心血管科学中心,校长大楼,小法国新月,爱丁堡,EH16 4SB,英国;2 巴茨心脏中心,巴茨健康 NHS 信托,W Smithfield,EC1A 7BE,伦敦,英国;3 伦敦大学学院心血管科学研究所,62 Huntley St,WC1E 6DD,伦敦,英国;4 莱斯特大学心血管科学系,University Rd,莱斯特 LE1 7RH,英国;5 NIHR 莱斯特生物医学研究中心,Glenfield 医院,Groby Road,莱斯特,LE3 9QP,英国;6 心血管创新中心,圣保罗和温哥华综合医院,1081 Burrard St Room 166,温哥华,不列颠哥伦比亚省 V6Z 1Y6,加拿大; 7 心脏、胸腔和血管科学与公共卫生系,Via Giustiniani, 2 - 35128,帕多瓦,意大利; 8 阿尔斯特心血管中心,OLV 诊所,Moorselbaan 164, 9300 阿尔斯特,比利时; 9 那不勒斯大学高级生物医学科学系,费德里科二世,80125 那不勒斯,意大利; 10 布鲁塞尔 Ziekenhuis 大学心脏病学系,Laarbeeklaan 101, 1090 Jette, 比利时; 11 心脏病科,Hôpital La Timone,264 Rue Saint-Pierre,13005 马赛,法国; 12 Allina Health 明尼阿波利斯心脏研究所,雅培西北医院,800 E 28th St,明尼阿波利斯,明尼苏达州 55407,美国; 13 雷恩大学心脏病学和 CIC,2 Rue Henri Le Guilloux,35033 雷恩,法国; 14 GIGA 心血管科学,列日大学医院心脏病科,CHU Sart Tilman,比利时列日; 15 Gruppo Villa Maria Care and Research, Corso Giuseppe Garibaldi, 11, 48022 Lugo RA, 意大利; 16 魁北克心脏病和肺病学研究所/魁北克心肺研究所,2725 Ch Ste-Foy,魁北克,QC G1V 4G5,加拿大; 17 拉瓦尔大学医学系,Ferdinand Vandry Pavillon,1050 Av.加拿大魁北克省魁北克市 G1V 0A6 魁北克医学中心;美国华盛顿大学医学院医学系心脏病学第 18 分部,4333 Brooklyn Ave NE Box 359458,西雅图,华盛顿州 98195-9458,美国
在机器人辅助手术期间监测外科医生的工作量可以指导任务需求的分配、调整系统界面和评估机器人系统的可用性。当前测量认知负荷的做法主要依赖于主观且会扰乱手术工作流程的问卷。为了解决这一限制,展示了一个计算框架来预测远程机器人手术期间的用户工作量。该框架利用无线传感器来监测外科医生的认知负荷并预测他们的认知状态。在经过验证的达芬奇技能模拟器上执行手术技能任务的十二名外科医生同时记录了多种生理模式(例如心率变异性、皮肤电和脑电图活动)的连续数据。这些手术任务的难度各不相同,例如,需要不同的视觉处理需求和精细运动控制程度。使用独立成分分析融合收集的多模态生理信号,并将预测结果与真实工作量水平进行比较。结果比较了不同分类器、传感器融合方案和生理模态(即使用单一模态与多种模态进行预测)的性能。结果发现,我们的多传感器方法优于单个信号,并且可以在基本和复杂的手术技能任务中 83.2% 的时间内正确预测认知工作量水平。
本综述记录了跨不同模态分类的表示方法,从纯粹基于内容的方法到利用外部结构化知识源的技术。我们介绍了与用于表示的三种范式相关的研究,即(a)低级模板匹配方法,(b)基于聚合的方法,和(c)深度表示学习系统。然后,我们描述现有的结构知识资源,并阐述使用此类信息丰富表示的必要性。接下来介绍利用知识资源的方法,根据如何利用外部信息进行组织,即(a)输入丰富和修改,(b)基于知识的细化和(c)端到端知识感知系统。随后,我们将进行高层次的讨论,总结和比较所提出的表示/丰富范式的优缺点,并在综述结束时概述相关研究成果和未来工作的可能方向。
摘要:本研究旨在调查多模态模式对远程塔台环境的贡献。使用交互式空间声音和振动触觉反馈设计了 4 种不同类型的交互和反馈,以响应 4 种典型的空中交通管制用例。实验涉及 16 名专业空中交通管制员,他们被要求在生态实验条件下管理 4 种不同的 ATC 场景。在其中两种场景中,参与者只需控制一个机场(即单远程塔台环境),而在另外两种场景中,参与者必须同时控制两个机场(即多远程塔台环境)。增强模式以平衡的方式激活或不激活。行为结果强调,当在单远程塔台环境中激活增强模式时,参与者的整体表现显着提高。这项工作表明,某些类型的增强模式可用于远程塔台环境。
压力这个词用来描述人类对情绪、认知和身体挑战性体验的反应。压力反应的一个特点是自主神经系统的激活,导致对危险情况的威胁做出“战斗-冻结-逃跑”反应。因此,在处理空中交通管制 (ATC) 活动时客观评估和跟踪管制员的压力水平的能力将使我们能够更好地调整工作班次并保持高安全水平,以及保护操作员的健康。在这方面,要求 16 名管制员进行真实的空中交通管理 (ATM) 模拟,在此期间收集主观数据(即压力感知)和神经生理数据(即大脑活动、心率和皮肤电反应),目的是准确描述管制员在各种实验条件下所经历的压力水平。此外,外部主管定期评估管制员在整个 ATM 场景中表现出的压力、安全性和效率。结果表明:1)压力事件导致主管和控制员低估所经历的压力水平;2)同时考虑认知和激素过程有利于定义可靠的压力指数;3)测量压力的时间点非常重要,因为一旦压力事件发生,可能会产生短暂的影响。