Loading...
机构名称:
¥ 1.0

作为人类,我们用所有感官或模态(听觉、视觉、触觉、嗅觉和味觉)体验世界。我们使用这些模态,特别是视觉和触觉,来传达和解释特定的含义。多模态表达是对话的核心;一组丰富的模态会相互放大并经常相互补偿。多模态对话 AI 系统通过多种模态理解和表达自己来回答问题、完成任务并模拟人类对话。本文激励、定义并以数学形式表述了多模态对话研究目标。我们提供了解决目标所需的研究分类:多模态表示、融合、对齐、翻译和共同学习。我们调查了每个研究领域的最新数据集和方法,并强调了它们的限制性假设。最后,我们将多模态共同学习确定为多模态对话式人工智能研究的一个有希望的方向。

多模式对话式 AI 数据集和方法调查

多模式对话式 AI 数据集和方法调查PDF文件第1页

多模式对话式 AI 数据集和方法调查PDF文件第2页

多模式对话式 AI 数据集和方法调查PDF文件第3页

多模式对话式 AI 数据集和方法调查PDF文件第4页

多模式对话式 AI 数据集和方法调查PDF文件第5页