7在7分钟内解释的流行LLM

快速概述GPT,Bert,Llama等!

来源:KDnuggets
作者的图像| canva

我们在许多日常任务中使用大型语言模型。这些模型已经接受了数十亿个在线文档和不同数据集的培训,使它们能够以人类的方式理解,理解和响应。但是,并非所有LLM都以相同的方式创建。尽管核心思想仍然相似,但它们的基础架构有所不同,这些变化对其能力产生了重大影响。例如,正如在各种基准中看到的那样,DeepSeek擅长推理任务,Claude在编码方面表现良好,Chatgpt在创意写作方面脱颖而出。

它们的基本体系结构有所不同,这些变化对其能力有重大影响

在本文中,我将带您浏览7个流行的LLM架构,为您提供清晰的概述,并在几分钟之内。因此,让我们开始。

1。Bert

纸张链接:https://arxiv.org/pdf/1810.04805在2018年开发的伯特通过在语言建模中引入深度双向关注,标志着自然语言理解的重大转变。与以前以从左到右或左右读取文本的模型不同,伯特使用变压器编码器同时考虑两个方向。它是使用两个任务进行训练的:蒙版的语言建模(预测随机掩盖的单词)和次句预测(确定一个句子是否在逻辑上遵循另一句话)。在建筑上,Bert有两种尺寸:Bert Base(12层,110m参数)和Bert大(24层,340m参数)。它的结构仅依赖于编码器堆栈,并包括[Cls](例如[Cls])的特殊令牌,以表示完整的句子和[sep]分开两个句子。您可以将其调整为诸如情感分析,问题回答(例如小队)等任务。这是真正了解句子的全部含义的第一个同类。

纸链接: https://arxiv.org/pdf/1810.04805 [Cls] [sep] 2。GPT 纸链接(GPT 4): https://arxiv.org/pdf/2303.08774 https://arxiv.org/pdf/1810.04805 [Cls]

[sep]

2。GPT 纸链接(GPT 4):https://arxiv.org/pdf/2303.08774https://arxiv.org/pdf/2303.08774