详细内容或原文请订阅后点击阅览
DeepSeek可能找到了一种提高人工智能记忆能力的新方法
中国人工智能公司 DeepSeek 发布的人工智能模型采用了可以显着提高人工智能“记忆”能力的新技术。上周发布的光学字符识别 (OCR) 模型的工作原理是从图像中提取文本并将其转换为机器可读的单词。这与为扫描仪应用程序、文本翻译提供支持的技术相同......
来源:MIT Technology Review _人工智能目前,大多数大型语言模型将文本分解为数千个称为标记的微小单元。这会将文本转化为模型可以理解的表示形式。然而,随着与最终用户的对话时间越来越长,这些令牌的存储和计算成本很快就会变得昂贵。当用户与人工智能长时间聊天时,这种挑战可能会导致人工智能忘记被告知的事情并得到混乱的信息,这个问题被一些人称为“上下文腐烂”。
DeepSeek 开发的新方法(并在其最新论文中发表)可以帮助克服这个问题。它的系统不是将单词存储为标记,而是将书面信息打包成图像形式,几乎就像是在为书中的页面拍照一样。研究人员发现,这使得模型能够保留几乎相同的信息,同时使用更少的标记。
最新论文本质上,OCR 模型是这些新方法的测试平台,可以更有效地将更多信息打包到 AI 模型中。
除了使用视觉标记而不仅仅是文本标记之外,该模型还建立在一种分层压缩的基础上,这与人类记忆的消失方式没有什么不同:较旧或不太重要的内容以稍微模糊的形式存储,以节省空间。尽管如此,该论文的作者认为,这些压缩内容仍然可以在后台访问,同时保持高水平的系统效率。
文本标记长期以来一直是人工智能系统中的默认构建块。使用视觉标记是非常规的,因此 DeepSeek 的模型很快吸引了研究人员的注意力。特斯拉前 AI 负责人、OpenAI 创始成员安德烈·卡帕蒂 (Andrej Karpathy) 赞扬了 X 上的论文,称图像最终可能比文本更好地作为法学硕士的输入。他写道,文本标记可能“浪费,而且输入时很糟糕”。
X