真理的几何形状在任务中是正交的

本文在ICML 2025.LARGE语言模型(LLMS)的有关可靠和负责任的基础模型的研讨会上介绍了各种任务的令人印象深刻的概括能力,但是他们对实际相关性的主张仍然存在于其可靠性的担忧。最近的工作提出了研究LLM在推理时间上产生的激活,以评估其对问题的答案是否正确。一些作品声称可以从示例中学到“真理的几何”,从某种意义上说,可以区分产生正确答案的激活……

来源:Apple机器学习研究

本文在ICML 2025的可靠和负责任的基础模型的研讨会上发表。

大型语言模型(LLMS)在各种任务中都表现出了令人印象深刻的概括能力,但是他们对实际相关性的主张仍然因其可靠性的担忧而陷入困境。最近的工作提出了研究LLM在推理时间上产生的激活,以评估其对问题的答案是否正确。一些作品声称可以从示例中学到“真理的几何”,从某种意义上说,生成正确答案的激活与导致线性分类器的错误的激活可以区分。在这项工作中,我们强调了这些方法的局限性:我们观察到这些“真理的几何形状”本质上是任务依赖性的,并且无法跨任务转移。更确切地说,我们表明,经过不同任务训练的线性分类器几乎没有相似之处,并且在接受稀疏性的训练时,几乎具有不相交的支持。我们表明,更复杂的方法(例如,使用探针和任务的混合物)无法克服此限制,这可能是因为在跨任务检查时,通常用于对答案进行分类的激活矢量通常用于对答案进行分类。

    **在Apple