构建能够从多种感官输入(例如文本、语音、视频、现实世界的传感器、可穿戴设备和医疗数据)中学习的多感官人工智能系统有望对许多科学领域产生影响并带来实际好处,例如支持人类健康和福祉、实现多媒体内容处理以及增强现实世界的自主代理。然而,多模态研究进展的广度使得很难确定该领域的共同主题和悬而未决的问题。通过综合一系列理论框架和应用领域,本论文旨在推进多模态机器学习的基础。我们首先定义多模态问题中经常出现的三个关键原则:模态异质性、连接和交互[371]。以这些原则为基础,我们提出了多模态研究中六个核心挑战的分类:表示、对齐、推理、生成、转移和量化。我们将通过这种分类法介绍最新的技术成果,使研究人员能够了解不同方法之间的异同,并确定未来研究的开放问题。本论文的主要内容涵盖了我们在解决多模态学习中的两个关键问题方面的最新进展:多模态交互的机器学习基础,以及构建可推广到现实世界中许多模态和任务的多感官基础模型的实用方法。在第一部分,我们研究多模态交互的基础:模态如何结合起来为某项任务产生新信息的基本原理。我们提出了一个理论框架,形式化了模态如何相互作用从而为某项任务产生新信息,例如从口语单词和声音表达之间的不一致中识别出的讽刺 [372]。利用这个理论框架,我们提出了两个实用的估计量来量化现实世界数据集中的交互。量化多模态任务所需的交互类型,使研究人员能够决定收集哪种模态[376],设计合适的方法来学习这些交互[374],并分析他们的模型是否成功学习[375]。在第二部分中,我们研究了实用的多模态基础模型的设计,这些模型可以推广到许多模态和任务,这为将大型语言模型应用到现实世界的感知模态迈出了一步。我们首先介绍 M ULTI B ENCH,这是一个统一的大规模基准,涵盖了广泛的模态、任务和研究领域[367]。我们还将介绍跨模态注意[101,359]和多模态变换器[613]架构,它们现在是许多当今多模态基础模型的基础。在 M ULTI B ENCH 上扩展这些架构,可以创建跨各种任务的通用多模态多任务模型,我们与实践者进行了广泛合作,将这些模型应用于情感计算、心理健康和癌症预后等现实世界的影响。我们通过讨论未来的工作如何利用这些想法实现更通用、互动性更强、更安全的多模态人工智能来结束这篇论文。
主要关键词