TokenBreak 漏洞绕过 AI 防御 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

TokenBreak 漏洞绕过 AI 防御

2025年7月2日 03:31 33 Comments

为什么重要：TokenBreak 利用通过操纵标记化来逃避 LLM 内容审核系统来绕过 AI 防御。

来源:人工智能+

TokenBreak 漏洞绕过 AI 防御

TokenBreak 漏洞利用大型语言模型 (LLM) 标记化过程中的核心弱点，绕过 AI 防御。这揭示了一种更新、更隐蔽的对抗性即时注入方法。该技术允许攻击者操纵自然语言文本如何分解为令牌，从而巧妙地绕过 ChatGPT 等生成式 AI 平台中的内容审核系统。随着生成式人工智能在企业和公共应用中的使用加速，TokenBreak 的发现引起了人们对当前人工智能安全机制稳健性的严重担忧。

要点

TokenBreak 操纵 NLP 模型中的 token 边界来逃避 AI 安全过滤器。

该方法允许在不触发检测的情况下巧妙地注入有害提示。

专家敦促积极监控代币模式并完善验证技术。

该漏洞利用了较旧的提示注入攻击，并具有更精细的隐藏功能。

什么是 TokenBreak 漏洞？

TokenBreak 是一个针对语言模型标记化层的漏洞。 ChatGPT 和 Claude 等 NLP 系统通过将文本转换为离散标记来解释文本。这些标记构成了输出生成过程中统计推理的基础。 TokenBreak 的工作原理是操纵这些令牌的形成方式。通过插入特定的字符或模式，攻击者可以控制令牌分割过程，同时保持可见文本的外观无害。

与依赖改写命令的传统提示注入攻击不同，TokenBreak 在较低的输入处理级别上运行。它在任何有意义的解释开始之前改变输入的解析方式。技术包括使用不可见的 Unicode 字符、不规则间距以及利用标记化模型中发现的分段特性（例如字节对编码）。要了解有关此基础主题的更多信息，请参阅这篇有关 NLP 中标记化的文章。

TokenBreak 如何绕过 AI 防御

参考文献

注入工作原理较低的输入稳健性隐蔽的 TokenBreak 主题的不规则精细的攻击者特定的过滤器 NLP 不可见的技术文本提示令牌绕过模式人工智能标记漏洞不可见允许可见的过程参考文献模型 AI 输入的

TokenBreak 漏洞绕过 AI 防御

TokenBreak 漏洞绕过 AI 防御

要点

什么是 TokenBreak 漏洞？

TokenBreak 如何绕过 AI 防御

参考文献

其他外部链接

Tags

XiaoMi-AI