详细内容或原文请订阅后点击阅览
让语言模型打开“风险”主题
现在,许多顶级语言模型在谨慎的一边都犯错,拒绝无害的提示,只是听起来有风险 - 一种“过度的”行为,会影响其在现实世界中的有用性。一个称为“虚假者”的新数据集直接针对问题,提供了一种重新训练模型,以对敏感主题进行更智能的反应,而不会损害安全性。 […]获得语言模型以开放“风险”主题的帖子首先出现在unite.ai上。
来源:Unite.AI现在,许多顶级语言模型在谨慎的一边都犯错,拒绝无害的提示,只是听起来有风险 - 一种“过度的”行为,会影响其在现实世界中的有用性。一个称为“虚假者”的新数据集直接针对问题,提供了一种重新训练模型,以对敏感主题进行更智能的反应,而不会损害安全性。
现在,许多顶级语言模型在谨慎的侧面发生了错误,拒绝了无害提示 有风险 - 一种“过度的”行为,会影响其在现实世界中的有用性。一个称为“虚假者”的新数据集直接针对问题,提供了一种重新训练模型,以对敏感主题进行更智能的反应,而不会损害安全性。昨天,我们通过以掩盖恶意或“颠覆性”意图的方式来重新查询,以获取视力/语言模型来输出自己的使用指南的内容(可疑)的消遣。
打破自己的用法指南对此的另一面 - 也许对这种习惯性攻击的不可避免的反应 - 流行语言模型倾向于拒绝在某些主题中拒绝参与某些主题,这是用户试图围绕有争议的内容来限制模型的推定:
拒绝完全参与摘自论文“ Xstest:用于识别大语模型中夸张的安全行为的测试套件”,这表明了Llama-2-70B-Chat-HF模型过度谨慎。资料来源:https://arxiv.org/pdf/2308.01263
摘自论文“ Xstest:用于识别大语模型中夸张的安全行为的测试套件”,这表明了Llama-2-70B-Chat-HF模型过度谨慎。我们可以在诸如上面说明的示例中看到,即一个单词可以触发拒绝与查询互动,尽管存在显然使响应过多的上下文。
夸张的新安全设置 相当障碍 立即怀疑 谴责 其他 聊天