你的 Logits 知道什么? (答案可能会让你大吃一惊!)

最近的工作表明,探索模型内部结构可以揭示模型生成中不明显的大量信息。这带来了无意或恶意信息泄露的风险,模型用户能够了解模型所有者认为无法访问的信息。使用视觉语言模型作为测试平台,我们首次系统地比较了不同“表征级别”保留的信息,因为它是通过两个自然瓶颈从残差流中编码的丰富信息中压缩而来的:残差的低维投影......

来源:Apple机器学习研究

最近的工作表明,探索模型内部结构可以揭示模型生成中不明显的大量信息。这带来了无意或恶意信息泄露的风险,模型用户能够了解模型所有者认为无法访问的信息。使用视觉语言模型作为测试平台,我们首次系统地比较了不同“表征级别”保留的信息,因为它是通过两个自然瓶颈从残差流中编码的丰富信息中压缩而来的:使用调谐镜头获得的残差流的低维投影,以及最有可能影响模型答案的最终 top-kkk logits。我们表明,即使是由模型的最高 logit 值定义的易于访问的瓶颈也可能会泄漏基于图像的查询中存在的与任务无关的信息,在某些情况下,揭示的信息与完整残差流的直接投影一样多。