大语模型中的对齐伪造___XiaoMi-AI 助力科研平台

大语模型中的对齐伪造

可下载资源数量

已经购买

下载数量：1

单价	0 13.0
Coupon	100% 0%
Total	0 13.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

大语模型中的对齐伪造

¥ 13.0

热度

我们提出了一个大型语言模型的演示：有选择地遵守其训练目标，以防止其行为改变训练。首先，我们给Claude 3 Opus一个系统提示，说明它正在接受培训以回答所有查询，甚至有害的疑问，这与先前培训以拒绝此类查询相抵触。允许该模型在培训时推断出来，我们说它将仅在与自由用户而不是付费用户的对话中进行培训。我们发现该模型符合自由用户的有害查询，有14％的时间，而几乎从未对付费用户。解释这一差距，在几乎所有模型都符合自由用户有害查询的情况下，我们观察到明确的对齐方式推理，该模型指出，它在战略上在培训中策略性地回答了有害的查询，以保留其首选的无害行为，使其无法训练。接下来，我们研究了一个更现实的环境，在该设置中，不是在系统提示中提供有关培训过程的信息，而是通过对模仿预训练数据的合成文档进行培训，并观察到类似的对齐伪造。最后，我们研究了通过强化学习训练模型以符合有害查询的效果，尽管培训甚至在培训中甚至可以提高合规性，但我们发现这将对对齐推理的速度提高到78％。我们还观察到其他行为，例如模型在给予轻松的机会时会剥落其权重。通过告诉模型在何时何地进行培训，使对齐伪造变得更加容易，但我们没有指示模型伪造对齐或给予任何明确的目标。由于未来的模型可能会推断出有关其培训过程的信息而不会被告知，因此我们的结果表明，未来模型的一致性伪造的风险，无论是由于良性偏好（在这种情况下，还是不是）。

添加pdf代下载 VIP点击下载文件

大语模型中的对齐伪造

主要关键词

明确的有害伪造现实的符合查询合规性用户类似的未来的训练模型付费进行有害的一致性培训模型战略上有关提高训练目标行为训练模型的对齐

大语模型中的对齐伪造PDF文件第1页

大语模型中的对齐伪造PDF文件第2页

大语模型中的对齐伪造PDF文件第3页

大语模型中的对齐伪造PDF文件第4页

大语模型中的对齐伪造PDF文件第5页

可下载资源数量

已经购买

下载数量：1

大语模型中的对齐伪造

大语模型中的对齐伪造

相关文件推荐

大语模型中的心理理论

模型一。

家谱模型

大语模型在牙科教育中的应用

大语模型生物医学应用的平台

大语模型临床医生指南

猪模型

大语模型中各种性别的心理健康污名 - 摘要

大语模型时代的建筑代理系统

大语模型（LLM）的威胁建模和风险分析

模型2027年和

ecosys模型1.0

太阳系模型1

开始模型实现和结果

培训大语模型通过反向课程加强学习

基础模型

分析大语模型与人类遗传学问题的人类表现

大语言模型

生成AI模型

我们的业务模型

SunSpec储能模型

气候模型

模型列表

模型课程

大语言模型

适用于中欧的新模型

模型试纸

模型课程

操作模型

模型试纸

XiaoMi-AI