o1 模型系列经过大规模强化学习训练,使用思路链进行推理。这些先进的推理能力为提高模型的安全性和稳健性提供了新途径。特别是,通过深思熟虑的协调[ 1 ] 1 ,我们的模型可以在响应潜在不安全提示时根据上下文推理我们的安全政策。这导致在某些风险基准上表现出色,例如产生非法建议、选择刻板反应和屈服于已知越狱。训练模型在回答之前融入思路链有可能释放出巨大的好处,同时也会增加因智力提高而产生的潜在风险。我们的研究结果强调了建立强大的协调方法、对其有效性进行广泛的压力测试以及维护细致的风险管理协议的必要性。本报告概述了针对 OpenAI o1 和 OpenAI o1-mini 模型开展的安全工作,包括安全评估、外部红队和准备框架评估。
主要关键词