通过因果关系解决RLHF中的奖励黑客__

通过因果关系解决RLHF中的奖励黑客

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

通过因果关系解决RLHF中的奖励黑客

¥ 1.0

热度

奖励黑客[Skalse等，2022]是AI对齐的关键问题，尤其是在增强学习（RL）中。AI系统旨在优化特定的奖励，通常会发现意想不到的方式来最大化这种奖励，这与人类意图不同。真正的目标与模型所学的行为之间的这种错位可能会导致不安全或不良结果。解决奖励黑客攻击对于构建可靠与人类价值观相吻合的AI系统至关重要。通过人类反馈（RLHF）进行加强学习的主要奖励黑客攻击是因果错误识别[Tien等，2022]。当模型错误地学习动作与奖励之间的因果关系，导致其优化代理或虚假相关性而不是真实目标时，就会发生这种情况。例如，该模型可能会在其环境中操纵指标或利用快捷方式。这创建了一个方案，其中AI根据奖励功能看起来很成功，但无法实现预期的目标。该项目旨在探索是否准确识别奖励模型中的因果机制是否可以帮助减轻奖励黑客攻击。通过对推动理想行为的因果关系进行建模，我们希望将AI引导到更加一致的学习中。具体来说，该项目将调查将因果推断整合到奖励建模中以提高RLHF鲁棒性的方法，从而降低AI利用意外漏洞的风险。目标是了解因果推理如何有助于更好地对齐具有人为价值的AI系统。

添加pdf代下载 VIP点击下载文件

通过因果关系解决RLHF中的奖励黑客

主要关键词

学习价值观相关性建模 RLHF 因果一致的因果关系学习的目标进行提高根据黑客攻击对齐操纵指标奖励 AI 预期的利用真正的行为最大化模型人类鲁棒性特定的是否 2022

通过因果关系解决RLHF中的奖励黑客PDF文件第1页

通过因果关系解决RLHF中的奖励黑客PDF文件第2页

可下载资源数量

已经购买

下载数量：1

通过因果关系解决RLHF中的奖励黑客

通过因果关系解决RLHF中的奖励黑客

相关文件推荐

奖励

解决

解决

解决

利用先前的解决方案来奖励成型和熵的钢筋学习

碳解决方案

奖励详细信息

GFLOWNET廉价奖励

软线的碳解决方案

解决巨人

奖励详细信息

解决方案

解决引文操纵

我们的解决方案

高准确性和解决

奖励详细信息

解决方案

问题解决

奖励过程

奖励详细信息

奖励假设

环境科学家奖励

挖泥解决方案

解决...

因果关系研究

被选为奖励类别

大脑黑客

问题解决

解决互连队列logjams

大解决方案

XiaoMi-AI