什么是大型语言模型?它们不是什么?

这是一篇关于大型语言模型 (LLM) 的高级介绍性文章,大型语言模型是支持非常流行的聊天机器人以及其他自然语言处理 (NLP) 应用程序的核心技术。它面向普通读者,可能具有一些技术和/或科学背景,但不要求读者具备深度学习或 NLP 方面的知识。在了解了主要模型成分、训练工作流程和输出生成机制之后,我们还讨论了这些模型不是什么。

来源:RStudio AI博客
“在撰写本文时,现存的唯一严肃的 ELIZA 脚本是一些导致 ELIZA 做出粗暴反应的脚本,就像某些心理治疗师(罗杰斯派)那样。当 ELIZA 的人类通信者最初被指示通过打字机与它“交谈”时,它的表现最好,就像与精神病医生交谈一样。之所以选择这种对话模式,是因为精神病学访谈是分类二元自然语言交流的少数几个例子之一,其中参与对之一可以自由地摆出对现实世界几乎一无所知的姿态。例如,如果有人告诉精神病医生“我坐了很长时间的船”,而他回答“告诉我关于船的事”,人们不会认为他对船一无所知,而是认为他有某种目的来引导随后的对话。重要的是要注意,这个假设是由说话者做出的。它是否现实是一个完全不同的问题。无论如何,它具有重要的心理效用,因为它可以帮助说话者保持被倾听和理解的感觉。说话者通过将各种背景知识、见解和推理能力归因于对话伙伴来进一步捍卫自己的印象(即使在现实生活中也可能是虚幻的)。但同样,这些都是说话者对对话的贡献。”约瑟夫·魏泽鲍姆,ELIZA 的创造者(Weizenbaum 1966)。

约瑟夫·魏泽鲍姆,ELIZA 的创造者(Weizenbaum 1966)。

(Weizenbaum 1966) Weizenbaum 1966 GPT ChatGPT 谈话 某人 某物 这其实就是我们:拟人化被释放

大型语言模型:它们是什么

模型训练

整体架构

Transformer (Vaswani 等人 2017) Vaswani 等人2017 (Hochreiter 和 Schmidhuber 1997) Hochreiter 和 Schmidhuber 1997 介绍 代码 解码 编码器 一些 Transformer 解码器

问题是,这样的解码器堆栈如何成功完成任务?

GPT 类型模型近距离观察

输入

嵌入 1, 2, …, <词汇量> 就目前而言 我们知道 位置嵌入 损失