详细内容或原文请订阅后点击阅览
为什么您的下一个LLM可能没有令牌
令牌机是必不可少的邪恶,但是这种激进的方法表明,这可能不再是必要的。为什么您的下一个LLM可能没有令牌器的帖子首先出现在数据科学方面。
来源:走向数据科学在我的上一篇文章中,我们进入了Google的泰坦(Google Titans),该模型通过引入动态内存模块即时适应了长篇文章的界限,就像我们自己的内存如何工作一样。
在我的上一篇文章中这是一个奇怪的悖论。我们有AI可以分析100亿字的文件,但它仍然陷入困境,例如:“草莓一词中有多少个'r?”
草莓问题不是AI的大脑;是眼睛。这些模型如何读取,代币化的第一步基本上是为它们预处理语言。这样一来,它剥夺了字母如何形成单词的丰富而混乱的细节;整个子词信息的全世界都消失了。
1。丢失令牌化:子词语义die die
对于人类而言,语言开始时以声音开始,早在写作之前就开始说。然而,通过写作和拼写,我们开始掌握语言的组成结构。字母形成音节,音节形成单词,然后从那里开始进行对话。这种角色级别的理解使我们能够纠正,解释和推断,即使文本是嘈杂或模棱两可的。相比之下,语言模型完全跳过了这个阶段。他们从不接触过字符或原始文本。取而代之的是,他们对语言的全部感知是由令牌者介导的。
这种令牌是整个管道中未知的唯一组件。尽管坐在旨在深刻自适应的模型的入口处,但它是愚蠢的,固定的,并且完全基于启发式方法。实际上,代币化为学习奠定了基础,但没有任何学习。
user_id_to_name_map
就像“脊髓”(即语言管道)一样,它被妥协越高,它越削弱下游的一切。坐在顶部,一个有缺陷的令牌机扭曲了输入,甚至在模型开始推理之前。无论体系结构多么聪明,它从一开始就可以使用损坏的信号。