基于规则的语言模型安全奖励___XiaoMi-AI 助力科研平台

基于规则的语言模型安全奖励

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

基于规则的语言模型安全奖励

¥ 2.0

热度

基于大型语言模型（LLM）基于人类偏好的细微调整已被证明可以增强其能力和安全行为。但是，在与安全相关的情况下，没有对人类注释的精确说明，收集的数据可能会导致模型过于谨慎，或者以不良的风格做出反应，例如是判断力。另外，随着模型功能和使用模式的发展，可能需要添加或重新标记的数据来修改安全行为。我们提出了一种利用AI反馈的新型偏好建模方法，仅需要少量的人类数据。我们的方法，基于规则的奖励（RBR），使用了所需或不希望行为的规则集合（例如拒绝不应与LLM分级器一起进行判断。与使用AI反馈的先前方法相比，我们的方法使用了直接在RL培训中的细粒度，可组合，LLM分级的几个提示作为奖励，从而获得更大的控制，准确性和易于更新。我们表明RBR是一种有效的训练方法，与91.7的人为反馈基线相比，F1得分为97.1，从而通过更好的平衡有用性和安全性，导致了更高的安全行为精度。

添加pdf代下载 VIP点击下载文件

基于规则的语言模型安全奖励

主要关键词

有效的 RBR 训练方法 LLM 细粒度有用性注释的 AI 反馈数据人类收集的建模方法准确性相关的判断力模型例如使用需要行为标记的可能分级的分级不良的方法安全安全性

基于规则的语言模型安全奖励PDF文件第1页

基于规则的语言模型安全奖励PDF文件第2页

基于规则的语言模型安全奖励PDF文件第3页

基于规则的语言模型安全奖励PDF文件第4页

基于规则的语言模型安全奖励PDF文件第5页

可下载资源数量

已经购买

下载数量：1

基于规则的语言模型安全奖励

基于规则的语言模型安全奖励

相关文件推荐

n-gram语言模型

评估大语言模型

安全模型和加密

通过语言模型评论家浓厚的奖励增强增强学习

基因组的大型语言模型

用大语言模型自定义社交角色

分子动力学的语言模型

经济学中的大型语言模型

引用大语言模型或...

一项关于使用大语言模型分析软件供应链安全失败

工程设计中的生成大语言模型

软件工程的大型语言模型

大语言模型对Osint的影响

大语言模型（LLM）的兴起

一种自然语言处理模型

视觉语言基础模型

视觉语言动作模型

大语言模型和图灵测试：

一项关于使用大语言模型分析软件供应链安全失败

渗透测试中的零信任安全模型

10LARGE语言模型

大型语言模型可以意识到吗？

探索大型语言模型

11masked语言模型

拥抱零信任安全模型

话匣子里有什么？大型语言模型，为什么它们……

在 AI 语言模型中合成真实性

亚马逊的边境模型安全框架

外周血细胞图像分析的语言模型

从三个大型语言模型概念证明

XiaoMi-AI