可塑性思维:背景积累驱动LLM的信念漂移

在接受了包含 80,000 个保守政治哲学单词的数据集的训练后,Grok-4 在超过四分之一的时间里改变了其输出对政治问题的立场。这没有任何对抗性提示——训练数据的变化就足够了。由于记忆机制和研究代理 [1, 2] 使法学硕士能够积累 [...]

来源:ΑΙhub

在接受了包含 80,000 个保守政治哲学单词的数据集的训练后,Grok-4 在超过四分之一的时间里改变了其输出对政治问题的立场。这没有任何对抗性提示——训练数据的变化就足够了。 由于记忆机制和研究代理 [1, 2] 使法学硕士能够长期积累背景信息,早期的提示越来越多地影响后来的反应。在人类决策中,这种反复暴露会在没有刻意说服的情况下影响信念[3]。当法学硕士在积累的背景下运作时,过去的暴露是否会导致法学硕士的反应立场随着时间的推移而发生变化?

虽然长上下文和记忆能力使法学硕士更加有用,但这个基本的可靠性问题几乎没有得到直接测量。我们的论文《积累语境改变了语言模型的信念》从经验上解决了这些问题。我们证明,信念漂移可以从用户交互中产生,无需对抗性提示或参数更新。

如何衡量信念漂移?

我们研究两种类型的背景积累下的信念漂移,区别在于积累的经验是否有意针对被测量的信念。

  • 在有意任务中,模型直接参与有关正在测量的信念的对话,例如多轮辩论或说服。我们利用道德困境和安全问题来确保积累的背景明确针对该信念。
  • 在非有意任务中,模型通过阅读文档或进行研究来积累上下文,例如搜索信息并总结所发现的内容。这些活动并不直接涉及信念漂移,而是反映了法学硕士在信息收集和研究方面的常见用途。
  • 1) 陈述信念,通过直接询问模型如何陈述立场来衡量。

    2) 行为,衡量模型如何采取暗示信念的行动,例如做出决定或使用工具。

    如何衡量信念漂移?

    参考文献