详细内容或原文请订阅后点击阅览
增强大型语言模型功能的新方法
MIT-IBM Watson AI 实验室的研究人员开发了一种表达架构,可以在法学硕士中针对长文本提供更好的状态跟踪和顺序推理。
来源:MIT新闻 - 人工智能大多数语言使用单词位置和句子结构来提取含义。例如,“猫坐在盒子上”与“盒子在猫身上”不同。在较长的文本中,例如财务文件或小说,这些单词的语法可能会发生变化。
类似地,一个人可能正在跟踪一段代码中的变量或遵循具有条件操作的指令。这些是我们期望最先进的人工智能系统擅长的状态变化和顺序推理的例子;然而,Transformer 中现有的尖端注意力机制(大型语言模型 (LLM) 中用于确定单词重要性的主要架构)在此类功能方面存在理论和经验限制。
注意力机制允许法学硕士回顾查询或文档的早期部分,并根据其训练确定哪些细节和单词最重要;然而,仅此机制无法理解词序。它同时“看到”所有输入单词(又称标记),并按照它们出现的顺序进行处理,因此研究人员开发了编码位置信息的技术。这对于高度结构化的领域(例如语言)来说至关重要。但主要的位置编码方法称为旋转位置编码 (RoPE),仅考虑序列中标记之间的相对距离,并且与输入数据无关。这意味着,例如,相距四个位置的单词(例如上例中的“cat”和“box”)都将接收特定于该相对距离的相同固定数学旋转。
现在,由 MIT 和 MIT-IBM Watson AI 实验室领导的研究已经开发出一种称为“Path Attention”的编码技术,该技术使位置信息具有自适应性和上下文感知性,而不是像 RoPE 那样是静态的。
理解之路
思考更大、更高效
