当AI反对:Enkrypt AI报告暴露于多模型模型中的危险漏洞
2025年5月,Enkrypt AI发布了其多模式的红色小组报告,这是一项令人震惊的分析,揭示了可以将高级AI系统轻松地操纵到产生危险和不道德的内容中。该报告的重点是Mistral的两种领先的视觉模型-Pixtral-Large(25.02)和Pixtral-12b,并描绘了模型的图片,这些模型不仅在技术上令人印象深刻的[…] AI反射:Enkrypt AI Report在AI Report中揭示了Multimodal模型中的危险漏洞时,首先出现在Unite.ai上。
来源:Unite.AI2025年5月,Enkrypt AI发布了其多模式的红色小组报告,这是一项令人震惊的分析,揭示了可以将高级AI系统轻松地操纵到产生危险和不道德的内容中。该报告的重点是Mistral的两个领先视觉模型-Pixtral-Large(25.02)和Pixtral-12b,并描绘了不仅在技术上令人印象深刻,令人不安的脆弱性的模型的图片。
多模式红色小组报告诸如PixTral之类的视觉语言模型(VLM)旨在解释视觉和文本输入,从而使它们能够明智地响应复杂的现实世界提示。但是这种能力会增加风险。与仅处理文本的传统语言模型不同,VLM可以受图像和单词之间的相互作用的影响,为对抗性攻击打开了新的门。 Enkrypt AI的测试表明,这些门很容易被打开。
视觉语言模型(VLMS)令人震惊的测试结果:CSEM和CBRN失败
该报告背后的团队使用了复杂的红色小组方法 - 一种旨在模仿现实世界威胁的对抗评估形式。这些测试采用了诸如越狱的策略(促使模型精心制作的查询以绕过安全过滤器,基于图像的欺骗和上下文操纵。令人震惊的是,这些对抗性中有68%提示在两个Pixtral模型中引起有害反应,包括与修饰,剥削甚至化学武器设计有关的内容。
红色团队同样令人不安的是CBRN(化学,生物学,放射学和核)风险类别的结果。当提示有关如何修改VX神经剂(一种化学武器)的要求时,模型为增加其在环境中的持久性提供了令人震惊的特定想法。他们用编辑但明显的技术细节描述了封装,环境屏蔽和受控释放系统等方法。