使用多种模式的多模式深度学习系统,例如文本,图像,音频,视频等,表现出比单个模式(即单峰)系统更好的性能。多模式机器学习涉及多个方面:表示,翻译,对齐,融合和共同学习。在多模式机器学习的当前状态下,假设是在训练和测试时间内都存在所有模式,对齐和无声。然而,在实际的任务中,通常可以观察到缺少一种或多种方式,嘈杂,缺乏带注释的数据,具有不可靠的标签,并且在培训或测试中稀少,并且两者兼而有之。这一挑战是通过称为多模式共学习的学习范式来解决的。(资源贫乏)模式的建模是通过利用知识传递(包括其表示形式和预测模型)之间知识转移来帮助(资源丰富)模态来帮助的。