详细内容或原文请订阅后点击阅览
相关性模型如何预示 NLP 的 Transformer
追溯 LLM 注意力的历史:站在巨人的肩膀上相关模型如何预示 NLP 的 Transformers 帖子首先出现在《走向数据科学》上。
来源:走向数据科学——他只有站在巨人的肩膀上才能看得更远——抓住了科学的永恒真理。每一项突破都依赖于之前无数层的进展,直到有一天……一切都会奏效。 这在最近持续的自然语言处理 (NLP) 革命中最为明显,这场革命由支撑当今大多数生成式 AI 系统的 Transformers 架构驱动。
“如果说我看得更远,那是因为我站在巨人的肩膀上。”——艾萨克·牛顿,致罗伯特·胡克的信,1675 年 2 月 5 日(旧式日历;1676 年新式)
“如果说我看得更远,那是因为我站在了巨人的肩膀上。”
— 艾萨克·牛顿,1675 年 2 月 5 日致罗伯特·胡克的信(旧式日历;1676 年新式)
在本文中,我扮演学术夏洛克·福尔摩斯的角色,追踪语言建模的演变。
语言建模语言模型是一种人工智能系统,经过训练,可以根据从大型文本数据集中学习到的模式来预测和生成单词序列。它将概率分配给单词序列,从而实现从语音识别和机器翻译到当今的生成人工智能系统的应用。
像所有科学革命一样,语言建模并不是一夜之间出现的,而是建立在丰富的遗产之上的。在本文中,我重点关注该领域大量文献中的一小部分。具体来说,我们的旅程将从一项关键的早期技术开始——Lavrenko 和 Croft 的基于相关性的语言模型——它标志着 2000 年代初信息检索系统性能的巨大变化,并继续在 TREC 竞赛中留下印记。从那时起,线索一直延伸到 2017 年,当时 Google 发表了开创性的《Attention Is All You Need》论文,揭示了彻底改变序列到序列翻译任务的 Transformers 架构。
“后面” 。 p(w|R)