Transformers 解释:了解 GPT-3、BERT 和 T5 背后的模型

你知道那句话吗?当你有一把锤子时,所有东西看起来都像钉子。在机器学习中,我们似乎真的发现了一把神奇的锤子,实际上,所有东西都是钉子,它们被称为 Transformers。Transformers 是一种可以设计用于翻译文本、写诗和专栏文章,甚至生成计算机代码的模型。事实上,我在 daleonai.com 上写的很多令人惊叹的研究都是基于 Transformers 构建的,比如 AlphaFold 2,这是一个根据蛋白质基因序列预测蛋白质结构的模型,以及强大的自然语言处理 (NLP) 模型,如 GPT-3、BERT、T5、Switch、Meena 等。你可能会说它们已经超出了……呃,算了吧。如果你想在机器学习尤其是 NLP 领域保持领先地位,你必须至少了解一点 Transformers。因此,在这篇文章中,我们将讨论它们是什么、它们如何工作以及它们为何如此有影响力。Transformer 是一种神经网络架构。总而言之,神经网络是一种非常有效的模型,可用于分析图像、视频、音频和文本等复杂数据类型。但有不同类型的神经网络针对不同类型的数据进行了优化。例如,为了分析图像,我们通常会使用卷积神经网络或“CNN”。它们大致模仿了人类大脑处理视觉信息的方式。卷积神经网络,由 Wikicommons 的 Renanar2 提供。自 2012 年左右以来,我们在解决

来源:Dale on AI

你知道那句话吗:当你有一把锤子时,所有东西看起来都像钉子。那么,在机器学习中,我们似乎真的发现了一把神奇的锤子,实际上,所有东西都是钉子,它们被称为 Transformers。Transformers 是一种可以设计用于翻译文本、写诗和专栏文章,甚至生成计算机代码的模型。事实上,我在 daleonai.com 上写的很多令人惊叹的研究都是基于 Transformers 构建的,比如 AlphaFold 2,这是一个根据蛋白质基因序列预测蛋白质结构的模型,以及强大的自然语言处理 (NLP) 模型,如 GPT-3、BERT、T5、Switch、Meena 等。你可能会说它们远远不止这些……呃,算了吧。

当你有锤子时,一切看起来都像钉子 诗歌和专栏文章 甚至生成计算机代码 AlphaFold 2 GPT-3

如果你想在机器学习尤其是 NLP 领域保持领先,你必须至少了解一点 Transformers。因此,在这篇文章中,我们将讨论它们是什么、它们如何工作以及它们为何如此有影响力。

Transformer 是一种神经网络架构。总结一下,神经网络是一种非常有效的模型,可用于分析图像、视频、音频和文本等复杂数据类型。但是,有不同类型的神经网络针对不同类型的数据进行了优化。例如,为了分析图像,我们通常会使用卷积神经网络或“CNN”。模糊地说,它们模仿了人类大脑处理视觉信息的方式。

卷积神经网络

卷积神经网络,由 Wikicommons 的 Renanar2 提供。

卷积神经网络,由 Wikicommons 的 Renanar2 提供。 自 2012 年左右开始

在 2017 年推出 Transformers 之前,我们使用深度学习来理解文本的方式是使用一种称为循环神经网络或 RNN 的模型,它看起来像这样:

RNN 的图像,由 Wikimedia 提供。

RNN 的图像,由 Wikimedia 提供。

“简去找麻烦了。”

“麻烦去找简了”

有多大?

45 TB h