深度学习 (NLP/DL) 的自然语言处理的未来

我最近参加了 Kevin Clarke (CS224n) 的演讲,他在演讲中谈到了 NLP 的未来趋势。我写这篇文章是为了总结和讨论最近的趋势。幻灯片片段来自他的客座演讲。有两个主要主题奠定了深度学习 NLP 的趋势:1. 使用无监督 / 未标记数据进行预训练2. OpenAI GPT-2 突破1. 使用无监督 / 未标记数据进行预训练监督数据昂贵且有限,我们如何使用无监督数据来补充训练和监督微调以做得更好?让我们将其应用于机器翻译的问题,看看它如何有所帮助 - 如果您有 2 个不同语言的文本语料库(转录或维基百科文章),没有跨语言映射。我们可以将其用于预训练,在两个语料库上分别训练编码器和解码器 LSTM(无需注意),然后将它们组合成一个模型,并在标记数据集上进行微调。这有什么帮助?这里的编码器和解码器 LSTM 都学习了各自的语言分布的概念,并且可以作为每种语言的生成模型。当你把它们放在一起时(#2),模型会学习使用压缩表示并将它们从源语言映射到目标语言。预训练在某种程度上相当于“智能”初始化。让我们更进一步。预训练的问题是网络最初并没有接受过学习源到目标映射的训练。让我们看看自我训练是如何应用

来源:Ankit-AI | 分享人工智能

我最近参加了 Kevin Clarke (CS224n) 的一次演讲,他在演讲中谈到了 NLP 的未来趋势。我写这篇文章是为了总结和讨论最近的趋势。幻灯片片段来自他的

客座讲座

有两个主要主题奠定了深度学习 NLP 的趋势:

1. 使用无监督/无标记数据进行预训练

2. OpenAI GPT-2 突破

1. 使用无监督/无标记数据进行预训练

监督数据昂贵且有限,我们如何使用无监督数据来补充监督微调训练以做得更好?

让我们将其应用于机器翻译问题,看看它如何有所帮助 -

如果您有 2 个不同语言的文本语料库(转录或维基百科文章),没有跨语言映射。

我们可以将其用于预训练,在两个语料库上分别训练编码器和解码器 LSTM(无需注意),并将它们组合成一个模型,并在标记的数据集上进行微调。

这有什么帮助?这里的编码器和解码器 LSTM 都已经学习了各自语言分布的概念,并且可以作为每种语言的生成模型。当您将它们放在一起(#2)时,模型将学习使用压缩表示并将它们从源语言映射到目标语言。预训练在某种程度上相当于“智能”初始化。让我们更进一步。

预训练的问题是网络最初并没有接受过学习源到目标映射的训练。让我们看看自我训练如何作为反向翻译在这里发挥作用,我们使用 NMT(神经机器翻译)模型将英语翻译成法语,然后将输出 NMT1 作为反向值对输入到 NMT2。这意味着,给定 NMT1 的输出,模型 2 学习如何生成输入。这更像是“增强”的监督数据,给定另一个模型的噪声输入,您的网络正在学习预测先前模型的输入。

优化目标函数摘要:

跨语言 BERT

2. GPT-2