O1模型系列经过大规模增强学习的训练,以使用思想链进行推理。这些高级推理功能为提高模型的安全性和鲁棒性提供了新的途径。尤其是,我们的模型可以在响应潜在不安全提示时在上下文中对我们的安全政策进行推论。这导致在某些基准测试中的最新性能,例如产生非法建议,选择刻板印象的回应以及屈服于已知的越狱。培训模型在回答之前纳入思想链有可能解锁实质性好处,同时也增加了智力增强的潜在风险。我们的结果强调了建立强大的一致性方法的必要性,对其有效性进行了广泛的压力,并保持了细致的风险管理协议。本报告概述了针对OpenAI O1-Preiview和OpenAI O1-Mini模型进行的安全工作,包括安全评估,外部红色团队和准备框架评估。
主要关键词