研究需求和科学愿景” Yu-Chen Karen Chen- Wiegart、Iradwikanari Waluyo、Andrew Kiss、Stuart Campbell、Lin Yang、Eric Dooryhee、Jason R. Trelewicz、Yiyang Li、Bruce Gates、Mark Rivers、Kevin G. Yager 同步辐射新闻 (2020) DOI:10.1080/08940886.2020.1701380
摘要 本文全面考察了多模态人工智能 (AI) 方法如何为在教育环境中实现通用人工智能 (AGI) 铺平道路。它仔细研究了人工智能在教育系统中的演变和整合,强调了多模态的关键作用,其中包括听觉、视觉、动觉和语言学习模式。这项研究深入探讨了 AGI 的关键方面,包括认知框架、高级知识表示、自适应学习机制、战略规划、复杂的语言处理以及多种多模态数据源的集成。它批判性地评估了 AGI 在重塑教育范式方面的变革潜力,重点是提高教学和学习效率,填补现有方法的空白,并解决教育中 AGI 的道德考虑和负责任的使用
摘要 — 近年来,多模态情绪识别引起了学术界和工业界越来越多的关注,因为它能够使用各种模态(如面部表情图像、语音和生理信号)进行情绪检测。尽管该领域的研究发展迅速,但由于难以捕捉自然和细微的面部表情信号(如眼肌电图 (OMG) 信号),创建包含面部电信息的多模态数据库仍然具有挑战性。为此,我们在本文中介绍了一个新开发的多模态真实情绪和表情检测 (MGEED) 数据库,这是第一个包含面部 OMG 信号的公开数据库。MGEED 包含 17 个受试者,拥有超过 150K 张面部图像、140K 张深度图和不同模态的生理信号,包括 OMG、脑电图 (EEG) 和心电图 (ECG) 信号。参与者的情绪由视频刺激引起,数据由多模态传感系统收集。利用收集的数据,开发了一种基于多模态信号同步、特征提取、融合和情绪预测的情绪识别方法。结果表明,通过融合视觉、EEG 和 OMG 特征可以获得优异的性能。数据库可从 https://github.com/YMPort/MGEED 获取。
近年来,生成模型取得了重大进展,尤其是在文本到图像合成领域。尽管取得了这些进展,但医学领域尚未充分利用大规模基础模型的功能来生成合成数据。本文介绍了一种文本条件磁共振 (MR) 成像生成框架,解决了与多模态考虑相关的复杂性。该框架包括一个预先训练的大型语言模型、一个基于扩散的提示条件图像生成架构和一个用于输入结构二进制掩码的附加去噪网络。实验结果表明,所提出的框架能够生成与医学语言文本提示一致的逼真、高分辨率和高保真的多模态 MR 图像。此外,该研究根据文本条件语句解释了生成结果的交叉注意力图。这项研究的贡献为未来文本条件医学图像生成的研究奠定了坚实的基础,并对加速医学成像研究的进步具有重要意义。
1 爱丁堡大学心血管科学中心,校长大楼,小法国新月,爱丁堡,EH16 4SB,英国;2 巴茨心脏中心,巴茨健康 NHS 信托,W Smithfield,EC1A 7BE,伦敦,英国;3 伦敦大学学院心血管科学研究所,62 Huntley St,WC1E 6DD,伦敦,英国;4 莱斯特大学心血管科学系,University Rd,莱斯特 LE1 7RH,英国;5 NIHR 莱斯特生物医学研究中心,Glenfield 医院,Groby Road,莱斯特,LE3 9QP,英国;6 心血管创新中心,圣保罗和温哥华综合医院,1081 Burrard St Room 166,温哥华,不列颠哥伦比亚省 V6Z 1Y6,加拿大; 7 心脏、胸腔和血管科学与公共卫生系,Via Giustiniani, 2 - 35128,帕多瓦,意大利; 8 阿尔斯特心血管中心,OLV 诊所,Moorselbaan 164, 9300 阿尔斯特,比利时; 9 那不勒斯大学高级生物医学科学系,费德里科二世,80125 那不勒斯,意大利; 10 布鲁塞尔 Ziekenhuis 大学心脏病学系,Laarbeeklaan 101, 1090 Jette, 比利时; 11 心脏病科,Hôpital La Timone,264 Rue Saint-Pierre,13005 马赛,法国; 12 Allina Health 明尼阿波利斯心脏研究所,雅培西北医院,800 E 28th St,明尼阿波利斯,明尼苏达州 55407,美国; 13 雷恩大学心脏病学和 CIC,2 Rue Henri Le Guilloux,35033 雷恩,法国; 14 GIGA 心血管科学,列日大学医院心脏病科,CHU Sart Tilman,比利时列日; 15 Gruppo Villa Maria Care and Research, Corso Giuseppe Garibaldi, 11, 48022 Lugo RA, 意大利; 16 魁北克心脏病和肺病学研究所/魁北克心肺研究所,2725 Ch Ste-Foy,魁北克,QC G1V 4G5,加拿大; 17 拉瓦尔大学医学系,Ferdinand Vandry Pavillon,1050 Av.加拿大魁北克省魁北克市 G1V 0A6 魁北克医学中心;美国华盛顿大学医学院医学系心脏病学第 18 分部,4333 Brooklyn Ave NE Box 359458,西雅图,华盛顿州 98195-9458,美国
J. Güldenring、P. Gorczak、F. Eckermann、M. Patchou、J. Tiemann、F. Kurtz 和 C. Wietfeld,《超视距操作中无人搜救飞机系统的可靠远程多链路通信》,《无人机》,MDPI,第 4 卷,第 2 期,2020 年 5 月。
摘要:透过密集遮挡重建场景图像是一项重要但具有挑战性的任务。传统的基于帧的图像去遮挡方法在面对极其密集的遮挡时可能会导致致命的错误,因为有限的输入遮挡帧中缺乏有效的信息。事件相机是受生物启发的视觉传感器,它以高时间分辨率异步记录每个像素的亮度变化。然而,仅从事件流合成图像是不适当的,因为事件流中只记录了亮度变化,而初始亮度是未知的。在本文中,我们提出了一种事件增强的多模态融合混合网络用于图像去遮挡,它使用事件流提供完整的场景信息,使用帧提供颜色和纹理信息。提出了一种基于脉冲神经网络(SNN)的事件流编码器,以有效地对事件流进行编码和去噪。提出了比较损失以生成更清晰的结果。在基于事件和基于帧的大规模图像去遮挡数据集上的实验结果表明,我们提出的方法达到了最先进的性能。
人工智能 (AI) 一直在寻求利用机器来解决人类无法完成的任务(例如大数据分析)。基于竞争性工程成果、海量数据、快速计算和自主性的前景,AI 领域正在蓬勃发展。一个突出的例子是从大挑战中扩展而来的自动驾驶汽车的巨大努力(Seetharaman 等人 2006 年;Urmson 等人 2009 年)。当前的兴趣包括成群的自主协调无人机 (UAV;Shishika 和 Paley 2017 年;Cruise 等人 2018 年)。要实现这样的机器人系统需要通过自主性进行多模式感知和行动。四种类型的自主性(Hintze 2016)包括传统的基于规则的 AI 方法和自我意识 AI(表 1)。具有自我意识的自动驾驶汽车与人类互动(Amershi 等人,2014 年),建立概念知识(Bredeweg 等人,2013 年),并使用情境(Adomavicius 等人,2011 年)。Scerri 等人(2015 年)的一个突出例子是,他们利用移动显示器、本体和多模态融合,通过整合人类语义(例如社交网络)、物理传感器(例如全球定位系统)和模型(例如天气),开发了一种情境感知的情境分析设备。
认知地图是关于大脑如何有效组织记忆并从中检索上下文的一个概念。内嗅海马复合体与情景和关系记忆处理以及空间导航密切相关,被认为通过位置和网格细胞构建认知地图。为了利用认知地图的有希望的特性,我们使用后继表示建立了一个多模态神经网络,该网络能够模拟位置细胞动态和认知地图表示。在这里,我们使用由图像和词嵌入组成的多模态输入。网络学习新输入和训练数据库之间的相似性,从而成功学习认知地图的表示。随后,网络的预测可用于从一种模态推断到另一种模态,准确率超过 90%。因此,所提出的方法可以成为改进当前 AI 系统的基石,以便更好地理解环境和物体出现的不同模态。因此,特定模态与某些遭遇的关联可以在新情况下导致情境感知,当发生具有较少信息的类似遭遇时,可以从学习到的认知图中推断出更多信息。认知图,以大脑中的内嗅海马复合体为代表,组织和检索记忆中的情境,这表明像 ChatGPT 这样的大型语言模型 (LLM) 可以利用类似的架构来充当高级处理中心,类似于海马体在皮层层次结构中的运作方式。最后,通过利用多模态输入,LLM 可以潜在地弥合不同形式数据(如图像和文字)之间的差距,为情境感知和通过学习到的关联来扎根抽象概念铺平道路,解决人工智能中的基础问题。
近年来,多模态领域在计算机视觉领域引起了极大的兴趣,它已被证明非常强大,可以让模型从原始文本而不是手动注释中学习视觉概念。使用这一概念的一个特定模型是 CLIP [1],它在一般的零样本图像分类任务中表现出了最先进的性能。然而,很少有研究探讨 CLIP 在专门任务中的竞争力。为了填补这一空白,本报告探讨了 CLIP 模型是否可以使用从社交媒体收集的威胁相关数据成功地适应安全情报领域,同时使用与原始文章相同的训练任务。此外,我们还探讨了 CLIP 的图像文本对齐功能如何用于多模态事件分类。除了传统的监督方法(其中 CLIP 用于特征提取)之外,我们还提出了一种使用 CLIP 的零样本功能进行事件分类的新方法。我们的微调模型和预训练的 CLIP 模型并行用于这两种方法,以比较性能。我们的结果表明,CLIP 可以在社交媒体数据上成功进行微调,其零样本图像标题匹配能力提高了 2%。此外,我们还表明,我们的新方法实现了 22% 的 AUC 得分,而传统方法实现了 74% 的 AUC 得分,这导致我们得出结论,使用 CLIP 的先天零样本能力进行事件分类需要