深度学习 (NLP/DL) 的自然语言处理的未来 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

深度学习 (NLP/DL) 的自然语言处理的未来

2019年3月15日 02:12 33 Comments

我最近参加了 Kevin Clarke (CS224n) 的演讲，他在演讲中谈到了 NLP 的未来趋势。我写这篇文章是为了总结和讨论最近的趋势。幻灯片片段来自他的客座演讲。有两个主要主题奠定了深度学习 NLP 的趋势：1. 使用无监督 / 未标记数据进行预训练2. OpenAI GPT-2 突破1. 使用无监督 / 未标记数据进行预训练监督数据昂贵且有限，我们如何使用无监督数据来补充训练和监督微调以做得更好？让我们将其应用于机器翻译的问题，看看它如何有所帮助 - 如果您有 2 个不同语言的文本语料库（转录或维基百科文章），没有跨语言映射。我们可以将其用于预训练，在两个语料库上分别训练编码器和解码器 LSTM（无需注意），然后将它们组合成一个模型，并在标记数据集上进行微调。这有什么帮助？这里的编码器和解码器 LSTM 都学习了各自的语言分布的概念，并且可以作为每种语言的生成模型。当你把它们放在一起时（#2），模型会学习使用压缩表示并将它们从源语言映射到目标语言。预训练在某种程度上相当于“智能”初始化。让我们更进一步。预训练的问题是网络最初并没有接受过学习源到目标映射的训练。让我们看看自我训练是如何应用

来源:Ankit-AI | 分享人工智能

我最近参加了 Kevin Clarke (CS224n) 的一次演讲，他在演讲中谈到了 NLP 的未来趋势。我写这篇文章是为了总结和讨论最近的趋势。幻灯片片段来自他的

客座讲座

。

有两个主要主题奠定了深度学习 NLP 的趋势：

1. 使用无监督/无标记数据进行预训练

2. OpenAI GPT-2 突破

1. 使用无监督/无标记数据进行预训练

监督数据昂贵且有限，我们如何使用无监督数据来补充监督微调训练以做得更好？

让我们将其应用于机器翻译问题，看看它如何有所帮助 -

如果您有 2 个不同语言的文本语料库（转录或维基百科文章），没有跨语言映射。

我们可以将其用于预训练，在两个语料库上分别训练编码器和解码器 LSTM（无需注意），并将它们组合成一个模型，并在标记的数据集上进行微调。

这有什么帮助？这里的编码器和解码器 LSTM 都已经学习了各自语言分布的概念，并且可以作为每种语言的生成模型。当您将它们放在一起（#2）时，模型将学习使用压缩表示并将它们从源语言映射到目标语言。预训练在某种程度上相当于“智能”初始化。让我们更进一步。

预训练的问题是网络最初并没有接受过学习源到目标映射的训练。让我们看看自我训练如何作为反向翻译在这里发挥作用，我们使用 NMT（神经机器翻译）模型将英语翻译成法语，然后将输出 NMT1 作为反向值对输入到 NMT2。这意味着，给定 NMT1 的输出，模型 2 学习如何生成输入。这更像是“增强”的监督数据，给定另一个模型的噪声输入，您的网络正在学习预测先前模型的输入。

优化目标函数摘要：

跨语言 BERT

2. GPT-2

使用机器翻译解码器监督无标记语料库没有数据输入 NLP 作为训练学习模型映射