结构在运行时可以做到即使某一个模态信息缺失整个网络也能取得不错的效果 , 在多通道情感识别、 语义理解、目标学习等领域取得很好的效果 .尽管如此 , 这类网络相对于任务来说还是相对 “ 具体 ”, 如 果要换一个任务 , 用户就需要修改网络结构包括重新调整参数 , 这使得深度神经网络结构的设计是一 个耗时耗力的过程 .因此研究者们希望一个混合的神经网络结构可以同时胜任多个任务 , 以减少其在 结构设计和训练方面的工作量 .鉴于此 , 研究者开始致力于首先采用大数据联合训练构建出多通道联 合特征分享层 , 然后在识别阶段可以同时进行多任务处理的深度多模态融合结构 .如 Google 的学者 尝试建议一个统一的深度学习模型来自适应地适配解决不同领域、不同数据模态下的多个不同类型 的任务 , 且在特定任务上的性能没有明显损失的模型 [71] .该模型构架请见文献 [71] 的图 2, 由处理输 入的编码器、编码输入与输出混合的混合器、混合输出的解码器 3 个部分构成 , 文献 [71] 的图 3 给 出了这 3 个部分的详细描述 .每一个部分的主体结构类似 , 均包含多个卷积层、注意力机制和稀疏门 控专家混合层 .其中 , 不同模块中的卷积层的作用是发现局部模式 , 然后将它泛化到整个空间 ; 注意力 模块和传统的注意力机制的主要区别是定时信号 , 定时信号的加入能让基于内容的注意力基于所处的 位置来进行归纳和集中 ; 最后的稀疏阵列混合专家层 , 由前馈神经网络 ( 专家 ) 和可训练的门控网络组 成 , 其选择稀疏专家组合处理和鉴别每个输入 .