Loading...
机构名称:
¥ 1.0

在巨大的文本语料库中鉴定的大型语言模型(LLM)表现出了各种自然语言处理任务的非凡能力[Brown,2020]。但是,这些模型通常显示出偏见或有毒行为,以及如何使它们与人类价值观保持一致仍然是一个开放的问题。最近,通过将其作为加强学习(RL)问题来解决这个问题,目的是最大化人类偏好。这种方法,也称为人类反馈(RLHF)[Christiano等人,2017年,Stiennon等,2020],已成为使LLMS对齐的主要方式。将偏好学习作为RL问题,一个重要的问题是如何定义奖励功能。以前,这通常是使用成对比较模型(例如Bradley-Terry模型[Bradley and Terry,1952])建模的。但是,正如Munos等人指出的那样,这可能是有问题的。[2023],而解决此问题的一种更自然的方法是将其作为游戏进行。在目前的工作中,我们遵循这种方法,并将其与可以看待优势函数的想法结合使用以编码动作的因果效应[Pan等,2022],并证明这使我们能够量化代币在RLHF环境中的因果效应。

估计令牌在偏好学习中的影响

估计令牌在偏好学习中的影响PDF文件第1页

估计令牌在偏好学习中的影响PDF文件第2页

估计令牌在偏好学习中的影响PDF文件第3页

估计令牌在偏好学习中的影响PDF文件第4页

估计令牌在偏好学习中的影响PDF文件第5页

相关文件推荐

2017 年
¥5.0
2024 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0