自监督预训练技术在 Document AI 中取得了显著进展。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态的双向表示,但它们在图像模态的预训练目标上有所不同。这种差异增加了多模态表示学习的难度。在本文中,我们提出了 LayoutLMv3,以统一的文本和图像掩码来预训练用于 Document AI 的多模态 Transformer。此外,LayoutLMv3 还使用词块对齐目标进行预训练,通过预测文本词的相应图像块是否被掩码来学习跨模态对齐。简单的统一架构和训练目标使 LayoutLMv3 成为以文本为中心和以图像为中心的 Document AI 任务的通用预训练模型。实验结果表明,LayoutLMv3 不仅在以文本为中心的任务(包括表单理解、收据理解和文档视觉问答)中取得了最佳性能,而且在以图像为中心的任务(例如文档图像分类和文档布局分析)中也取得了最佳性能。代码和模型可在 https://aka.ms/layoutlmv3 上公开获取。