最近,在使计算机能够像我们一样理解语言方面也取得了重大突破。自然语言处理 (NLP) 与表征学习和深度学习相结合,取得了突飞猛进的成果,表明这些技术可以在许多 NLP 任务中取得最先进的结果,例如语言建模 [Jozefowicz et al.,2016]、问答 [Seo et al.,2017]、解析 [Vinyals et al.,2014] 等等。2017 年,Transformer 模型 [Vaswani et al.,2017] 的推出带来了里程碑式的突破。该序列到序列模型利用了注意力机制,适合并行化,并引入了位置编码等技术,与之前利用