点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
此图显示了根据众包工作者的模型比较计算出的无害性与有用性 Elo 分数(分数越高越好)。它显示了帕累托改进(即双赢局面),其中宪法 RL 比标准 RLHF 更有帮助,也更无害。
主要关键词