你的 Logits 知道什么？（答案可能会让你大吃一惊！） XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

你的 Logits 知道什么？（答案可能会让你大吃一惊！）

2026年4月20日 00:00 33 Comments

最近的工作表明，探索模型内部结构可以揭示模型生成中不明显的大量信息。这带来了无意或恶意信息泄露的风险，模型用户能够了解模型所有者认为无法访问的信息。使用视觉语言模型作为测试平台，我们首次系统地比较了不同“表征级别”保留的信息，因为它是通过两个自然瓶颈从残差流中编码的丰富信息中压缩而来的：残差的低维投影......

来源:Apple机器学习研究

最近的工作表明，探索模型内部结构可以揭示模型生成中不明显的大量信息。这带来了无意或恶意信息泄露的风险，模型用户能够了解模型所有者认为无法访问的信息。使用视觉语言模型作为测试平台，我们首次系统地比较了不同“表征级别”保留的信息，因为它是通过两个自然瓶颈从残差流中编码的丰富信息中压缩而来的：使用调谐镜头获得的残差流的低维投影，以及最有可能影响模型答案的最终 top-kkk logits。我们表明，即使是由模型的最高 logit 值定义的易于访问的瓶颈也可能会泄漏基于图像的查询中存在的与任务无关的信息，在某些情况下，揭示的信息与完整残差流的直接投影一样多。

所有者不明显的编码的保留的使用语言模型作为残差模型生成模型的投影揭示无法访问信息最近的可能明显的风险瓶颈

你的 Logits 知道什么？（答案可能会让你大吃一惊！）

其他外部链接

Tags

XiaoMi-AI

你的 Logits 知道什么？ （答案可能会让你大吃一惊！）

其他外部链接

Tags

你的 Logits 知道什么？（答案可能会让你大吃一惊！）