什么是大型语言模型？它们不是什么？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

什么是大型语言模型？它们不是什么？

2023年6月20日 00:00 33 Comments

这是一篇关于大型语言模型 (LLM) 的高级介绍性文章，大型语言模型是支持非常流行的聊天机器人以及其他自然语言处理 (NLP) 应用程序的核心技术。它面向普通读者，可能具有一些技术和/或科学背景，但不要求读者具备深度学习或 NLP 方面的知识。在了解了主要模型成分、训练工作流程和输出生成机制之后，我们还讨论了这些模型不是什么。

来源:RStudio AI博客

“在撰写本文时，现存的唯一严肃的 ELIZA 脚本是一些导致 ELIZA 做出粗暴反应的脚本，就像某些心理治疗师（罗杰斯派）那样。当 ELIZA 的人类通信者最初被指示通过打字机与它“交谈”时，它的表现最好，就像与精神病医生交谈一样。之所以选择这种对话模式，是因为精神病学访谈是分类二元自然语言交流的少数几个例子之一，其中参与对之一可以自由地摆出对现实世界几乎一无所知的姿态。例如，如果有人告诉精神病医生“我坐了很长时间的船”，而他回答“告诉我关于船的事”，人们不会认为他对船一无所知，而是认为他有某种目的来引导随后的对话。重要的是要注意，这个假设是由说话者做出的。它是否现实是一个完全不同的问题。无论如何，它具有重要的心理效用，因为它可以帮助说话者保持被倾听和理解的感觉。说话者通过将各种背景知识、见解和推理能力归因于对话伙伴来进一步捍卫自己的印象（即使在现实生活中也可能是虚幻的）。但同样，这些都是说话者对对话的贡献。”约瑟夫·魏泽鲍姆，ELIZA 的创造者（Weizenbaum 1966）。

约瑟夫·魏泽鲍姆，ELIZA 的创造者（Weizenbaum 1966）。

(Weizenbaum 1966) Weizenbaum 1966 GPT ChatGPT 谈话某人某物这其实就是我们：拟人化被释放

大型语言模型：它们是什么

听模型训练

整体架构

Transformer (Vaswani 等人 2017) Vaswani 等人2017 (Hochreiter 和 Schmidhuber 1997) Hochreiter 和 Schmidhuber 1997 介绍代码解码 编码器 一些 Transformer 解码器

问题是，这样的解码器堆栈如何成功完成任务？

GPT 类型模型近距离观察

输入

嵌入 1, 2, …, <词汇量> 就目前而言 我们知道 位置嵌入 损失

心理 Vaswani Hochreiter 对话告诉嵌入解码器推理做出重要的魏泽模型 Weizenbaum 1966 编码器 Transformer ELIZA 说话 2017