椰子:LLMS中潜在推理的框架

用简单的术语解释椰子(训练大语言模型以在连续的潜在空间中进行推理)椰子:LLMS中潜在推理的框架首先出现在数据科学方面。

来源:走向数据科学
纸张链接:https://arxiv.org/abs/2412.06769REALEAD:2024年12月9日

纸张链接:https://arxiv.org/abs/2412.06769

https://arxiv.org/abs/2412.06769 发布:2024年12月9日 图1。椰子的两种推理模式。在语言模式(左)中,该模型使用输出文本令牌作为下一个推理步骤的输入。在潜在模式(右)中,该模型将其先前的隐藏状态(最后一个隐藏层的输出)作为输入回到自身中。取自[1] 的图 图1。 语言模式 潜在模式 高度关注具有推理能力的LLM,这是有充分理由的。推理增强了LLM的解决复杂问题,促进更强的概括,并引入了可解释的层,该层阐明了模型的内部思维过程。 LLM推理中的一个主要里程碑是引入了经营链的推理(COT)[2],它证明了指导模型逐步推理导致对算术和符号推理任务的重大改进。 尽管具有力量,但推理模型仍主要在自然语言的范围内运作,这可能会限制其有效性。代币的大部分空间都致力于保持语言连贯性,而不是促进抽象推理。解决这一限制,这是一本来自元的有趣的论文,训练大型语言模型在连续的潜在空间中进行推理[1],提议完全从自然语言中赎回了自然语言的链条,只需在必要时转换回语言。 培训大语言模型以在连续的潜在空间中进行推理[1] , 他们的贡献可以以三个关键点进行总结: 连续思想的链(椰子):建立在COT上的增强的推理范式。椰子不依赖最终的文本输出,而是利用模型的最后一个嵌入层潜在表示。 连续思想链(椰子): 椰子,简化 x = [x(1),x(2),x(3)…,x(t)] (m) x(t+1) x(≤t) $$ m_ {cot}(x_ {t+1} | x <= t)= softmax(wx_ {t})$$ W t

https://arxiv.org/abs/2412.06769

发布:2024年12月9日
图1。椰子的两种推理模式。在语言模式(左)中,该模型使用输出文本令牌作为下一个推理步骤的输入。在潜在模式(右)中,该模型将其先前的隐藏状态(最后一个隐藏层的输出)作为输入回到自身中。取自[1] 图1。 语言模式

潜在模式

高度关注具有推理能力的LLM,这是有充分理由的。推理增强了LLM的解决复杂问题,促进更强的概括,并引入了可解释的层,该层阐明了模型的内部思维过程。

LLM推理中的一个主要里程碑是引入了经营链的推理(COT)[2],它证明了指导模型逐步推理导致对算术和符号推理任务的重大改进。

尽管具有力量,但推理模型仍主要在自然语言的范围内运作,这可能会限制其有效性。代币的大部分空间都致力于保持语言连贯性,而不是促进抽象推理。解决这一限制,这是一本来自元的有趣的论文,训练大型语言模型在连续的潜在空间中进行推理[1],提议完全从自然语言中赎回了自然语言的链条,只需在必要时转换回语言。 培训大语言模型以在连续的潜在空间中进行推理[1]

  • 他们的贡献可以以三个关键点进行总结:
  • 连续思想的链(椰子):建立在COT上的增强的推理范式。椰子不依赖最终的文本输出,而是利用模型的最后一个嵌入层潜在表示。

    连续思想链(椰子):

    椰子,简化 x = [x(1),x(2),x(3)…,x(t)] (m) x(t+1)

    x(≤t)

    $$ m_ {cot}(x_ {t+1} | x <= t)= softmax(wx_ {t})$$ Wt